서지주요정보
Audio-text word representations for open-vocabulary keyword spotting = 개방 어휘 핵심어 검출을 위한 단어의 음성-텍스트 표현 기법에 관한 연구
서명 / 저자 Audio-text word representations for open-vocabulary keyword spotting = 개방 어휘 핵심어 검출을 위한 단어의 음성-텍스트 표현 기법에 관한 연구 / Myunghun Jung.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042616

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Open-vocabulary keyword spotting (KWS) is a technology detecting an occurrence of arbitrary keywords from input audio, and it has high research value in that users can customize their keywords while liberated from a pre-defined set of keywords of conventional KWS. However, compared to conventional KWS widely used in mobile devices, open-vocabulary KWS needs much performance improvement before it can be practically applicable. In this dissertation, we analyze the optimistic development of recent deep learning approaches utilizing audio and text jointly to represent words through the roles of two modalities when mapped to the same embedding space, and it is confirmed with a proposed Decoder-Sharing method. We extend the framework of audio-text representation into proxy-based deep metric learning (DML) and propose an Asymmetric-Proxy loss by exploring the optimal combination of existing DML loss functions. In addition, we introduce an Adaptive Margin and Scale method where class-wise learnable parameters dynamically change according to the training progress, which shows significant improvement in generalization performance. Finally, we propose a Monotonic-Aligned Audio-Text loss to resolve the data segmentation problem that embedding-based open-vocabulary KWS approaches suffer at inference.

개방 어휘 핵심어 검출은 임의의 핵심어가 입력 오디오 내에 존재하는지 감지하는 기술로, 사전 정의된 핵심어만 검출할 수 있는 고전적인 방식에서 벗어나 사용자의 마음대로 핵심어를 지정할 수 있다는 점에서 연구 가치가 높다. 그러나 모바일 기기 등에서 널리 쓰이고 있는 고전적인 방식의 핵심어 검출에 비해 상용화되기까지 많은 성능 개선이 필요하다. 본 학위 논문에서는 음성과 텍스트를 함께 활용하여 단어를 표현하는 최근의 딥러닝 기법들의 성능 향상을 두 양식이 같은 임베딩 공간에 매핑될 때의 역할을 통해 분석하고, 디코더 공유 기법을 제안하여 구체화한다. 그리고 프록시 기반의 거리 학습으로 음성-텍스트 표현 기법의 체계를 확장하고 기존의 손실 함수들로부터 최적의 조합을 탐색하여 비대칭적-프록시 손실 함수를 제안한다. 여기에 훈련의 진행도에 따라 클래스별 학습 가능한 파라미터들이 동적으로 변화하는 적응적 마진과 스케일 기법을 도입하여 일반화 성능을 크게 개선하였다. 마지막으로, 단조 정렬된 음성-텍스트 손실 함수를 제안하여 임베딩 기반의 개방 어휘 핵심어 검출 기술이 추론 시에 겪는 데이터 분할 문제의 해결 방안을 제시한다.

서지기타정보

서지기타정보
청구기호 {DEE 24004
형태사항 v, 52 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정명훈
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 44-49
주제 Open-vocabulary keyword spotting
Decoder-sharing
Asymmetric-proxy loss
Adaptive margin and scale
Monotonic-aligned audio-text loss
개방 어휘 핵심어 검출
디코더 공유 기법
비대칭적-프록시 손실 함수
적응적 마진과 스케일
단조 정렬된 음성-텍스트 손실 함수
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서