서지주요정보
L1-MAP 기법을 이용한 Subspace Gaussian Mixture Model에서의 화자 적응 = L1-MAP-based speaker adaptation of subspace gaussian mixture model
서명 / 저자 L1-MAP 기법을 이용한 Subspace Gaussian Mixture Model에서의 화자 적응 = L1-MAP-based speaker adaptation of subspace gaussian mixture model / 구자현.
저자명 구자현 ; Goo, Jahyun
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027604

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 15008

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Inter-speaker variability is one of the major factors degrading the performance of speech recognition. To cope with that, we try to find a powerful adaptation approach that can more effectively capture the phonetic variation along the speaker. A subspace Gaussian mixture model (SGMM) is an acoustic model in which an individual phone information is efficiently separated from other acoustic information. The phonetic information is stored as a phonetic state vector in the SGMM framework. Therefore, it is simply motivated to adapt only the phonetic state vector when we adapt the acoustic model to an individual speaker. In this paper, we propose a maximum a posteori adaptation applied to the phonetic state vector in the SGMM. And on top of that, L1-norm regularization is also applied to make a speaker-adaptive SGMM model sparse. We obtain 17.5% of word error rate reduction with maximum a posteriori adaptation for the Wall Street Journal English speech corpus. With L1-norm regularization, we obtain 15.6% of word error rate reduction and 38% of model parameter sparsity.

화자간 변이는 음성인식의 성능을 저하시키는 주요한 원인이다. 이를 대처하기 위해서는 화자에 따른 음소 변이를 더욱 잘 담아내는 적응기법을 고안해야 한다. 부분공간 가우시안 혼합 모델은 개별 음소 정보를 다른 음향 정보와 효율적으로 분리해낼 수 있는 음향 모델이다. 분리한 음소 정보는 부분공간 가우시안 혼합 모델에서 음소상태벡터 형태로 저장된다. 따라서 음향모델을 개별 화자에 맞게 적응시킬 때 음소상태벡터만을 변화시키는 방법을 생각해볼 수 있다. 본 학위논문에서는 음소상태벡터에 최대사후확률 적응을 적용하는 방법을 제안하고, 더불어 L1-norm regularization 기반의 최대사후확률 적응을 통해 화자적응 모델의 저장 효율을 높였다. 이 방법을 통해 Wall Street Journal 데이터베이스에서 최대사후확률 적응으로는 단어 오류율 기준 17.5%의 상대적인 성능 향상을 얻을 수 있었고, L1 노름 정규화로는 15.6%의 성능 향상과 38%의 저장 효율을 얻을 수 있었다.ㅜ

서지기타정보

서지기타정보
청구기호 {MEE 15008
형태사항 v, 48 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jahyun Goo
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Hoi Rin Kim
부록 수록
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 참고문헌 : p.
주제 부분공간 가우시안 혼합 모델
최대사후확률 적응
L1 노름 정규화
화자적응
음성인식
subspace Gaussian mixture model
maximum a posteriori adaptation
l1-norm regularization
speaker adaptation
speech recognition
QR CODE qr code