서지주요정보
Generalization of neural network on unseen acoustic environment and sentence for spoken dialog system = 음성 대화 시스템을 위한 신경망의 새로운 음향 환경과 문장에서의 일반화
서명 / 저자 Generalization of neural network on unseen acoustic environment and sentence for spoken dialog system = 음성 대화 시스템을 위한 신경망의 새로운 음향 환경과 문장에서의 일반화 / Geonmin Kim.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035647

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 20055

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The spoken dialog system is required to respond appropriately for diverse user queries. Generalization of spoken dialog system on unseen user query given from unseen sentence and an acoustic environment is discussed in this dissertation. For the first part, we deal with two general problems in conventional neural sentence representation: (1) estimating embedding of the rare word and (2) no inter-sentence dependency. The above problems are simultaneously addressed with the hierarchical composition recurrent network (HCRN). The HCRN consists of a 3-level hierarchy: character-word-sentence-context. This method is tested on the dialog act classification task with the DAMSL database. Compared to the conventional word-to-sentence hierarchy model, word embedding built by character-to-word hierarchy form morphologically, semantically similar clusters and sentence-to-context hierarchy reduce dialog act classification error especially for the sentence with an omission. For the second part, we aim speech enhancement without clean speech as the target, since it is generally not obtainable in a real environment and only available for simulated data. We propose the acoustic and adversarial supervision (AAS) for clean-free speech enhancement. Acoustic supervision makes enhanced speech maximizes the likelihood on the pre-trained acoustic model. Therefore, enhanced speech focus on maintaining phonetic characteristic but having artifacts as a consequence of over-fitting. Adversarial supervision makes enhanced speech having a general characteristic of clean speech, however, often irrelevant to the noisy speech by consequence of mode-collapse. With proper supervision weight combination, acoustic and adversarial supervision make up for each other’s limitations. This method is tested on Librispeech+DEMAND and CHiME-4 database. By visualizing the enhanced speech with different supervision combinations, we understand the aforementioned pros/cons of each supervision. Compared to the enhancement method using clean speech target, AAS achieve lower word error rate although the distance from clean speech is higher. For the third part, we aim to achieve the source and position robustness of the enhancement model. For source robustness, we remove the source-dependency of enhancement model by using intermic-ratio, demixing weight as input and output of the model. Demixing weight is inherently source-independent and intermic-ratio is approximately source-independent when an analysis window is much longer than impulse response. For position robustness, we propose the frequency-wise complex multi-layer perceptron given a prior analysis that position-sensitivity of demixing weight increases from low frequency to high frequency. Moreover, the target for demixing weight varies depending on model size, initialization, and training data in a minibatch since the global optimal of demixing weight is non-uniquely determined. We propose the reference position regularization to reduce training target variance by uniquely determine true demixing weight. The proposed method is tested on the simulated reverberant dataset with varying source position while room and mics are fixed. Compared to conventional source-dependent training methods, the proposed source-independent method achieves a higher signal-to-distortion ratio especially the number of training sources is small. While proposed model tend to overfit to training positions, the reference position regularization alleviates signal-to-distortion ratio drop on out-of-training position.

음성대화시스템은 다양한 사용자 질문에 적절한 대답을 내놓기를 요구된다. 학위연구에서는 음성 대화 시스템의 학습 과정에서 경험하지 못한 새로운 문장과 음향환경에서의 일반화 향상에 대한 소문제들을 다루었다. 논문의 첫 번째 부분에서는 신경망을 이용한 문장 표현법의 두 가지 문제를 다루고자 하였다. 문장내 저빈도 단어의 임베딩을 추론하는것과, 주변 문장들의 문맥 정보를 문장 표현에 반영하는 것이다. 상기 문제들을 개선하기 위하여 계층적 재귀 합성 신경망 (hierarchical composition recurrent network, HCRN)이 제안되었다. HCRN은 3가지 계층으로 구성되어 각각 글자, 단어, 문장을 입력으로 받아 상위 단위인 단어, 문장, 문맥에 대한 표현을 학습한다. 제안된 모델은 대화 화행 인식 테스크에서 시험되었다. 기존의 단어-문장 계층 모델과 비교하여 글자-단어 계층으로부터 생성된 단어 임베딩은 형태적, 의미적으로 유사한 클러스터를 형성하였다. 문장-문맥 계층의 사용으로 문장의 대화 화행인식 오류율이 생략이 많은 문장에서 크게 감소하였다. 두 번째 부분에서는 잡음 음성에 대응되는 무잡음 음성을 사용하지 않는 음성 향상 학습법을 목표로 하였다. 실환경에서 수집한 잡음 음성에 대해서는 무잡음 음성이 존재하지 않고 시뮬레이션 방법에서만 사용 가능하기 때문이다. 이를 위하여 음향 및 대립 지도 (acoustic and adversarial supervision, AAS)이 제안되었다. 음향 지도는 학습된 음향 모델에 대하여 향상된 음성의 우도를 높일 수 있도록 향상기를 학습시키도록 한다. 이에 따라, 향상된 음성이 음소의 특징을 유지하는데 집중하지만 과적합 현상이 음성에서 왜곡된 특징으로써 나타난다. 대립 지도는 향상된 음성이 무잡음 음성의 일반적인 특징을 가져서 왜곡된 특징이 나타나지 않으나, 모드붕괴에 의해 잡음 음성과 관련이 없는 임의의 무잡음 음성이 생성될 수 있다. 우리는 두 가지 지도의 목적함수를 가중합하여 상호보완적으로 사용하였다. 제안한 방법은 Librispeech+DEMAND와 CHiME-4 데이터에서 평가되었다. 두 가지 지도법으로 학습한 결과를 시각화하여 비교하므로써, 각 지도법의 장단점을 이해할 수 있었다. 무잡음 음성을 학습의 출력으로 사용하는 방법에 비하여 향상된 음성이 무잡음 음성과의 거리가 멀었으나, 단어 오류율은 낮았다. 논문의 세 번째 부분에서는 음원과 위치에 강인한 음성 향상 문제를 다루었다. 음원에 강인하기 위하여 입출력을 마이크간 비율 (intermic-ratio)과 디믹싱 가중치 (demixing weight)으로 사용하여 음성 향상 문제가 음원 독립성을 가지도록 하였다. 분석 윈도우가 임펄스 응답의 길이에 비해 충분히 긴 상황에서 입출력은 음원에 독립적이라는 성질을 가지고 있기 때문이다. 위치에 대한 강인함을 위해 주파수별 복소 멀티 레이어 퍼셉트론 (frequency-wise multi-layer perceptron)을 회귀 모델로 사용하였는데, 이는 디믹싱 가중치의 위치에 대한 변화가 저주파에서 고주파로 갈수록 위치에 민감한 특성에 근거하여 설계하였다. 또한, 디믹싱 가중치의 전역 최적해는 유일하게 결정되지 않아서, 회귀 모델의 파라미터 개수 및 초기화 방법, 미니배치 구성에 따라서 매번 변하게 된다. 학습에서 출력이 매번 변하는 현상을 줄이기 위하여 비교 위치 정규화 (reference position regularization)가 제안되었다. 제안한 방법은 고정된 방과 마이크에 대하여 음원만이 한정된 영역을 움직이는 시뮬레이션 기반의 데이터셋에서 테스트 되었다. 음원종속적인 기존 학습 방법에 비하여, 제안한 음원독립적인 학습 방법은 높은 신호대왜곡비를 기록하였고, 성능 차이는 특히 학습에서 사용한 음원의 개수가 적을 때 컸다. 학습된 모델들은 공통적으로 학습 위치에서 벗어날수록 신호대왜곡비가 떨어지는 과적합 현상도 있었는데, 과적합 현상은 비교 위치 정규화를 통해서 상당 부분 개선될 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 20055
형태사항 vii, 101 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김건민
지도교수의 영문표기 : Daeshik Kim
지도교수의 한글표기 : 김대식
공동지도교수의 영문표기 : Soo-Young Lee
공동지도교수의 한글표기 : 이수영
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 90-98
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서