Open-vocabulary keyword spotting (KWS) is a technology detecting an occurrence of arbitrary keywords from input audio, and it has high research value in that users can customize their keywords while liberated from a pre-defined set of keywords of conventional KWS. However, compared to conventional KWS widely used in mobile devices, open-vocabulary KWS needs much performance improvement before it can be practically applicable. In this dissertation, we analyze the optimistic development of recent deep learning approaches utilizing audio and text jointly to represent words through the roles of two modalities when mapped to the same embedding space, and it is confirmed with a proposed Decoder-Sharing method. We extend the framework of audio-text representation into proxy-based deep metric learning (DML) and propose an Asymmetric-Proxy loss by exploring the optimal combination of existing DML loss functions. In addition, we introduce an Adaptive Margin and Scale method where class-wise learnable parameters dynamically change according to the training progress, which shows significant improvement in generalization performance. Finally, we propose a Monotonic-Aligned Audio-Text loss to resolve the data segmentation problem that embedding-based open-vocabulary KWS approaches suffer at inference.
개방 어휘 핵심어 검출은 임의의 핵심어가 입력 오디오 내에 존재하는지 감지하는 기술로, 사전 정의된 핵심어만 검출할 수 있는 고전적인 방식에서 벗어나 사용자의 마음대로 핵심어를 지정할 수 있다는 점에서 연구 가치가 높다. 그러나 모바일 기기 등에서 널리 쓰이고 있는 고전적인 방식의 핵심어 검출에 비해 상용화되기까지 많은 성능 개선이 필요하다. 본 학위 논문에서는 음성과 텍스트를 함께 활용하여 단어를 표현하는 최근의 딥러닝 기법들의 성능 향상을 두 양식이 같은 임베딩 공간에 매핑될 때의 역할을 통해 분석하고, 디코더 공유 기법을 제안하여 구체화한다. 그리고 프록시 기반의 거리 학습으로 음성-텍스트 표현 기법의 체계를 확장하고 기존의 손실 함수들로부터 최적의 조합을 탐색하여 비대칭적-프록시 손실 함수를 제안한다. 여기에 훈련의 진행도에 따라 클래스별 학습 가능한 파라미터들이 동적으로 변화하는 적응적 마진과 스케일 기법을 도입하여 일반화 성능을 크게 개선하였다. 마지막으로, 단조 정렬된 음성-텍스트 손실 함수를 제안하여 임베딩 기반의 개방 어휘 핵심어 검출 기술이 추론 시에 겪는 데이터 분할 문제의 해결 방안을 제시한다.