서지주요정보
Robust acoustic word representation for personalized wake-up word detection = 개인화 기동어 검출의 음성단어표현 강인성 향상에 관한 연구
서명 / 저자 Robust acoustic word representation for personalized wake-up word detection = 개인화 기동어 검출의 음성단어표현 강인성 향상에 관한 연구 / Hyungjun Lim.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036422

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 20068

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Wake-up word detection (WWD) is one of the most widely used speech application that efficiently manages resources by activating the device only when needed. Especially, personalized WWD where users can customize their devices by registering preferred wake-up word by themselves has received much attention recently due to its flexibility and individuality. WWD attempts to detect the occurrence of a wake-up word for an incoming audio stream, so it requires a discriminating ability that can ignore ordinary speech utterances that do not contain a specific word. In the case of personalized WWD, we need more attention since it handles an arbitrary wake-up word defined by the user. In this regard, there have been myriad studies focusing on proper word representation, initiated from traditional hidden Markov model (HMM)- and template-based approaches. More recently, embedding-based approach has been proposed, where a word is represented by a fixed-dimensional vector. This simple form of representation efficiently reduced the computational cost of WWD, allowing it to cope with the constraint that should be always operated on the device. Meanwhile, one must bear in mind that WWD can suffer from performance degradation due to interfering factors such as noise or reverberation occurred in real-world environments surrounding us. To overcome these difficulties, we propose embedding-based acoustic word representations in this dissertation, that are robust to the environments. First, we propose interlayer selective attention network (ISAN) that pursues robustness of an acoustic word embedding by improving its ability to discriminate words. Inspired by the notion of selective attention, the method advances the word representation power of an embedding by emphasizing relevant components of it corresponding to certain characters in the word, where "Relevant" or "irrelevant" are determined by the interlayer selective attention mechanism we propose. As a result, the embedding possesses an improved ability to distinguish words, allowing to effectively cope with environmental factors such as noise and reverberation as well as unpredictable wake-up words. Second, unlike the above, we propose a new training method called cross-informed domain adversarial training (CiDAT) reducing disturbing environmental factors more directly. The proposed method improves the existing domain adversarial training (DAT) method by introducing the paths that explicitly removes irrelevant information. Experimental results showed that CiDAT outperformed the baselines including DAT regardless of noise types, showing over 70% relative improvement in overall. Finally, we represented a way to incorporate the two methods above. We integrated them in a sequential manner such as improving the word discrimination ability for an acoustic word embedding where the environmental effect was first reduced. In the experiments of the same scenario as before, the integrated model achieved better performance than each model, which confirmed the collaborative potential of the individual models.

기동어 검출 기술(wake-up word detection, WWD)은 장치를 필요할 때 활성화시켜 자원을 효과적으로 관리하는 음성 관련 분야에서 널리 활용되고 있는 기술이다. 특히, 사용자가 선호하는 기동어를 직접 장치에 등록할 수 있는 개인화 기동어 검출(personalized WWD)이 최근 많은 각광을 받고 있다. 일반적으로 기동어 검출은 입력되는 음향 신호에 대해 기동어의 발생 여부를 감지해야 하므로, 특정 단어가 포함되지 않은 일반적인 음성을 무시할 수 있는 능력이 필요하다. 특히, 개인화 기동어 검출의 경우 사용자가 정의한 기동어를 다루기 때문에, 이러한 능력이 임의의 단어에 대해서도 유효할 수 있어야 한다. 이와 관련하여, 고전적인 은닉 마르코프 모델(hidden Markov model, HMM) 및 템플릿(template) 기반 접근법으로부터 시작된 적절한 음성단어표현(acoustic word representation)에 초점을 맞춘 많은 연구들이 진행되었다. 특히 최근에는, 단어를 고정된 차원의 벡터 형태로 표현하는 임베딩(embedding) 기반 접근법이 제안되었다. 이와 같은 간단한 표현 형식은 장치에서 항상 동작해야하는 기동어 검출의 계산량을 효과적으로 감소시키는데 크게 기여했다. 한편, 기동어 검출은 통상적으로 잡음이나 잔향과 같은 다양한 간섭 요인들이 발생하는 환경에서 동작하기 때문에 피할 수 없는 성능 저하를 야기시킨다. 본 학위 논문에서는 이러한 어려움을 극복하기 위해 환경에 강인한 임베딩 기반의 음성단어표현을 생성하는 몇 가지 방법을 제안한다. 첫째로, 단어를 구분하는 능력을 향상시켜 음성단어표현의 강인성을 추구하는 층간 선택적 주의 네트워크(interlayer selective attention network, ISAN)를 제안한다. 선택적 주의 이론을 바탕으로 한 이 방법에서는 단어 내 특정 문자에 해당하는 임베딩의 관련 구성 요소를 강조함으로써 임베딩의 단어 표현력을 향상시킨다. 여기서 구성 요소의 관련성은 제안하는 층간 선택적 주의 방법에 의해 결정된다. 결과적으로, 임베딩의 개선된 단어 구별 능력으로 인해 예측 불가능한 기동어 뿐만 아니라 잡음 및 잔향과 같은 환경적인 요소에 효과적으로 대처할 수 있다. 둘째로, 앞의 방식과는 다르게 환경적인 요인을 보다 직접적으로 감소시키는 교차 알림 도메인 적대적 훈련(cross-informed domain adversarial training, CiDAT)이라는 새로운 훈련 방법을 제안한다. 제안하는 방법은 관련없는 정보를 명시적으로 제거하는 경로를 도입하여 기존의 도메인 적대적 훈련 방법(domain adversarial training, DAT)을 개선한다. 제안하는 방법은 잡음의 유형에 관계없이 DAT를 포함한 기준 성능을 능가했으며, 70% 이상의 상대적인 개선을 보여주었다. 마지막으로, 위의 두 가지 접근법을 통합하는 방법을 제시했다. 먼저 음성단어표현에 가해지는 환경적인 요인을 감소시킨 다음 그것의 단어 구분 능력을 향상시키는 순차적인 방식으로 이들을 통합했다. 이전과 동일한 내용의 실험에서 통합된 모델은 개별 모델에 비해 우수한 성능을 보였으며, 이를 통해 그들의 협업 가능성을 확인했다.

서지기타정보

서지기타정보
청구기호 {DEE 20068
형태사항 iv, 76 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 임형준
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 65-71
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서