The mismatch between the model and operation conditions always exists. One of the main mismatch factors is speaker variability. As an example, Speaker-Dependent (SD) systems always provide better accuracy than Speaker-Independent (SI) systems when a large amount of SD training data is available. Speaker adaptive techniques can diminish the gap between these two configurations with a small fraction of the speaker-specific adaptation data. Maximum Likelihood Linear Regression (MLLR) method, one of these techniques, has been widely used to obtain adapted models for a new speaker when the adaptation data is not sufficient. However even it cannot completely remove the mismatch of speaker variability. For more reducing the speaker variability, it is more efficient to use the features enhancing speaker-dependency. These can be obtained by feature transformation based on Independent Component Analysis (ICA).
Since SD feature transformation matrix may be biased when adaptation data are limited, it is not always reliable. Thus we need to smooth the ICA-based feature transformation matrix applying to both the adaptation and test data. As a smoothing method we proposed to use a linear interpolation between SI feature transformation matrix and SD feature transformation matrix. From experiment results, we observed that the proposed technique is effective in speaker adaptation.
음성인식 시스템에서 훈련 환경과 테스트 환경사이의 차이 때문에 인식성능의 저하가 올 수 있다. 본 논문에서는 이러한 요인 중에서 주요 인자가 되는 화자의 변이성에 초점을 맞추었다. 일반적으로 화자종속 적인 훈련 데이터가 충분할 경우 화자독립 시스템보다 화자종속 시스템의 경우 인식성능이 우월하다. 화자적응은 이러한 화자종속 시스템의 장점을 반영하기 위해 새로운 화자의 음성 데이터를 이용하여 화자독립 모델을 화자종속 모델로 변환하는 과정을 말한다. 화자적응을 수행하기 위해 일반적으로 MLLR 방식과 MAP방식이 널리 사용된다. MLLR은 MAP에 비하여 화자적응에 필요한 음성 데이터가 적은 경우에 빠르고 효율적이기 때문에 본 논문에서는 화자적응에 필요한 알고리즘으로서 MLLR을 사용하였다.
본 논문에서는 화자적응에 사용 할 새로운 화자의 특징 벡터에 화자특성을 강화 하기 위해서 ICA 기반 특징벡터 변환방법을 사용하였다. 즉, 화자적응용 음성 특징벡터에 ICA 기반 특징벡터 변환을 수행하여 새로운 화자를 대표하는 특징벡터로 사용하였다. 그러나 적은 양의 화자적응 데이터로부터 화자 종속용 특징벡터 변환 matrix를 구할 경우 화자의 특징을 충분히 반영하지 못하고 바이어스되는 경향이 있다. 이러한 경우를 보정하기 위해 본 논문에서는 훈련용 특징벡터 변환용으로 사용된 화자독립 특징벡터 변환 matrix와 새로운 화자의 특징벡터를 변환하기위해 사용된 화자종속 특징벡터 변환 matrix 사이의 smoothing을 제안하였다. 본 논문에서의 smoothing은 두 matrix간의 선형 보간을 통해 수행된다. Smoothing을 통해 얻은 새로운 특징벡터 변환 matrix를 화자적응 데이터와 테스트 데이터에 적용함으로써 효율적이고 신뢰성 있는 화자적응을 수행하였다.