서지주요정보
(A) study on generalization improvement for deep learning-based acoustic modeling in ASR = 음성인식시스템의 딥러닝 기반 음향모델 일반화 성능 향상에 관한 연구
서명 / 저자 (A) study on generalization improvement for deep learning-based acoustic modeling in ASR = 음성인식시스템의 딥러닝 기반 음향모델 일반화 성능 향상에 관한 연구 / Younggwan Kim.
저자명 Kim, Younggwan ; 김영관
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033242

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DEE 19004

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

Model generalization in machine learning fields implies the ability to accurately classify data that are not used in training. In the case of an acoustic model for processing acoustic features in a speech recognition system, this model generalization is important because there is a large difference between training data and test data due to environment and speaker variations. In particular, the generative modeling-based acoustic model, which focuses on the distribution of data such as the Gaussian mixture model, is vulnerable to classifying data that are not used for training. In order to solve such problems, researchers have made extensive efforts to improve the generalization of acoustic models by using methods such as maximizing margins, model adaptation, and feature selection. Recently, acoustic modeling techniques have moved away from the Gaussian mixture model and made a leap to improve recognition rates dramatically by using deep learning-based modeling. It can be seen that the deep learning-based modeling technique greatly improves the acoustic model generalization through the ability to simplify acoustic input features into linearly separable representations. However, this improvement is due to the structural merits of the deep learning model and it is not so different from the classical method that model training through the cross entropy (CE) criterion is dependent only on training data. Therefore, in this dissertation, various training methods to improve the generalization of deep learning-based acoustic models are proposed. First, we reinterpret the machine learning technique which improves model generalization through margin maximization and propose a method to apply it to training deep neural network (DNN)-based acoustic models. In this method, instead of considering margins directly, we utilize a method of expanding the margins through a regularization technique which maps the last hidden layer outputs densely at the centroid of each class. For the proposed method, we also propose a $L_2$ distance-based output layer that performs classification through the centroid. Second, we propose a new speaker adaptation technique for DNN-based acoustic models. In this method, we introduce a closed form solution-based training method in a linear output network framework instead of the stochastic gradient descent (SGD)-based approach which should consider various training conditions. The proposed method uses the aforementioned $ L_2 $ distance-based output layer so that the linearly transformed last hidden layer outputs are mapped close to the center of each class. Finally, we propose a feature selection technique by classification contribution, which can be used in deep learning-based acoustic modeling. The proposed method extends the idea of conventional feature selection techniques and assigns weights between 0 and 1 to each element of input features through a DNN framework. All of the proposed methods showed consistent performance improvements compared to CE criterion-based training, which proves the effectiveness of the proposed methods.

기계학습 분야에서의 모델의 일반화 성능은 훈련에 활용되지 않은 데이터를 얼마나 정확하게 분류할 수 있는지에 대한 능력을 의미한다. 음성인식시스템에서 음향 특징을 처리하는 음향모델의 경우, 환경과 화자변이에 의한 훈련 데이터와 테스트 데이터 간의 차이가 크기 때문에, 이러한 모델 일반화 성능이 더욱 중요시된다. 특히 기존의 가우시안 혼합 모델 (Gaussian mixture model) 과 같이 데이터의 분포를 표현하는 데 중점을 두는 생성적 모델링 (generative modeling)기반의 음향모델은 훈련에 활용되지 않는 데이터를 분류하는 데 취약할 수 밖에 없는 구조적인 문제를 안고 있다. 이와 같은 문제를 해결하기 위해 연구자들은 마진 최대화, 모델 적응, 특징 선택과 같은 방법들을 활용하여 음향모델의 일반화 성능을 향상시키기 위해 많은 노력을 기울여왔다. 최근 음향모델링 기법은 과거의 가우시안 혼합 모델에서 벗어나 딥러닝 기반의 모델링 기법을 활용하여 비약적으로 인식율을 향상시키는 계기를 마련하였다. 이는 딥러닝 기반의 모델링 기법이 입력 특징을 선형 분류 가능한 형태로 단순화 시키는 능력을 통해 음향 모델의 일반화 성능을 크게 향상시킨 것으로 볼 수 있다. 하지만 이러한 성능향상은 딥러닝 모델의 구조적인 장점에 기인한 것으로 교차 엔트로피 (cross entropy)를 통한 모델 훈련 과정에서는 훈련 데이터에만 의존적인 학습을 수행한다는 사실은 이전과 크게 다르지 않다. 따라서 본 학위 논문에서는 딥러닝 기반 음향모델의 일반화 성능 향상을 위한 다양한 훈련 방법들을 제안한다. 첫째로, 기존의 마진 최대화를 통해 일반화 성능을 향상시키는 기계학습 기법을 재해석하고 이를 심층 신경망 기반의 음향모델의 훈련에 활용할 수 있는 방법을 제안한다. 본 방법에서는 마진을 직접적으로 고려하는 대신 최상위 은닉층 출력이 각 클래스별 중심에 보다 더 가깝게 분포하도록 하는 정규화 기법을 통해 마진을 확장시킬 수 있는 방법을 적용한다. 제안하는 방법을 위해 각 클래스별 중심값을 통해 분류를 수행하는 $L_2$ 거리 기반의 출력층 또한 제안한다. 둘째로, 심층신경망 기반 음향 모델의 새로운 화자 적응 기법을 제안한다. 본 방법에서는 선형 출력 네트워크 (linear output network) 에 의한 화자적응을 수행하는 데 있어 다양한 훈련 조건을 고려해야 하는 경사 하강법 기반의 훈련 방법 대신 닫힌 해를 통한 훈련 방법을 소개한다. 제안하는 방법도 마찬가지로 선형변환된 최상위 은닉측 출력이 각 클래스 중심에 가깝게 표현되도록 하기 위해 앞서 언급한 $L_2$ 거리 기반의 출력층을 활용한다. 마지막으로, 딥러닝 기반 음향 모델에서 활용할 수 있는 분류 기여도를 통한 특징선택 기법을 제안한다. 제안하는 방법은 기존에 활용되는 특징선택 기법의 아이디어를 확장하여 심층신경망을 통해 입력 특징의 각 요소들에 대해 0과 1사이의 값으로 가중치를 부여하는 방식을 활용한다. 제안하는 방법들은 모두 교차 엔트로피 기반의 훈련과 비교하여 일관된 성능향상을 보여주었으며 이를 통해 제안하는 방법의 효과를 입증하였다.

서지기타정보

서지기타정보
청구기호 {DEE 19004
형태사항 v, 77 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김영관
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
수록잡지명 : "Learning Self-Informed Feature Contribution for Deep Learning-Based Acoustic Modeling". IEEE/ACM transactions on auido, speech, and language processing, v.26.no.11 , 2204-2214(2018)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 65-73
주제 Deep learning-based acoustic model
cohesive regularization
deep least squares linear regression
feature contribution network
딥러닝 기반 음향모델
응집 정규화
심층 최소제곱 선형회귀
특징기여도 네트워크
QR CODE qr code