Inter-speaker variability is one of the major factors degrading the performance of speech recognition. To cope with that, we try to find a powerful adaptation approach that can more effectively capture the phonetic variation along the speaker. A subspace Gaussian mixture model (SGMM) is an acoustic model in which an individual phone information is efficiently separated from other acoustic information. The phonetic information is stored as a phonetic state vector in the SGMM framework. Therefore, it is simply motivated to adapt only the phonetic state vector when we adapt the acoustic model to an individual speaker. In this paper, we propose a maximum a posteori adaptation applied to the phonetic state vector in the SGMM. And on top of that, L1-norm regularization is also applied to make a speaker-adaptive SGMM model sparse. We obtain 17.5% of word error rate reduction with maximum a posteriori adaptation for the Wall Street Journal English speech corpus. With L1-norm regularization, we obtain 15.6% of word error rate reduction and 38% of model parameter sparsity.
화자간 변이는 음성인식의 성능을 저하시키는 주요한 원인이다. 이를 대처하기 위해서는 화자에 따른 음소 변이를 더욱 잘 담아내는 적응기법을 고안해야 한다. 부분공간 가우시안 혼합 모델은 개별 음소 정보를 다른 음향 정보와 효율적으로 분리해낼 수 있는 음향 모델이다. 분리한 음소 정보는 부분공간 가우시안 혼합 모델에서 음소상태벡터 형태로 저장된다. 따라서 음향모델을 개별 화자에 맞게 적응시킬 때 음소상태벡터만을 변화시키는 방법을 생각해볼 수 있다. 본 학위논문에서는 음소상태벡터에 최대사후확률 적응을 적용하는 방법을 제안하고, 더불어 L1-norm regularization 기반의 최대사후확률 적응을 통해 화자적응 모델의 저장 효율을 높였다. 이 방법을 통해 Wall Street Journal 데이터베이스에서 최대사후확률 적응으로는 단어 오류율 기준 17.5%의 상대적인 성능 향상을 얻을 수 있었고, L1 노름 정규화로는 15.6%의 성능 향상과 38%의 저장 효율을 얻을 수 있었다.ㅜ