The speech recognizer running in the real world is considerably influenced by noise. The speech recognizer trained by the clean speech cannot well recognize a speech obtained under the noisy environments because the noise brings mismatches between the training and test environments. Therefore, it is necessary to compensate these mismatches for noise robust speech recognition.
In this thesis, we studied about an improvement of stochastic feature extraction based on band-SNR for noise robust speech recognition. We proposed a slightly-modified version of the multi-band spectral subtraction method that adjusts the subtraction level of noise spectrum according to band-SNR, which is noted as M-MSS. Also, we modified the architecture of the stochastic feature extraction method, which is noted as M-SFE. Then, we proposed a stochastic feature extraction method combining two methods above. It is to use advantages of two methods to reliably consider the effect of noise. In the M-MSS, a noise normalization factor was newly introduced in order to play a role in controlling the over-estimation factor depending on band-SNR. As a result, we could more reliably adjust the subtraction level of noise spectrum. We could get a better performance when the spectral subtraction was applied in the power spectrum domain than in the mel-scale domain. Last, we applied the framework of stochastic feature extraction method to the modified multi-band spectral subtraction method. The proposed method, which is denoted as the MMSS-MSFE method, could more effectively compensate variations of noise spectrum by estimating optimal spectrum of clean speech and using the mean and variance of stochastic features.
The proposed methods were evaluated on isolated word recognition under various noise environments. When we used only mean of stochastic feature, the average error rates of the M-MSS, M-SFE, MMSS-MSFE method over the ordinary spectral subtraction (SS) method were reduced with 18.6%, 11.0%, and 27.4%, respectively. Also, when we used both the mean and variance of stochastic feature, the average error rates of the M-SFE, MMSS-MSFE method over the SS method were reduced with 15.1% and 33.9%, respectively. From these results, we could conclude that the proposed methods provide good candidates for robust feature extraction in the noisy speech recognition.
실제 환경에서 동작하는 음성인식기는 잡음에 상당한 영향을 받는다. 잡음이 학습 환경과 인식 환경 사이의 불일치를 초래하기 때문에 깨끗한 음성으로 학습된 음성인식기는 잡음 환경 하에서 얻은 음성을 올바르게 인식할 수 없게 된다. 따라서 잡음에 강인한 음성인식기를 만들기 위해서는 이러한 불일치를 보상할 필요가 있다.
본 논문은 잡음에 강인한 음성 인식을 위해서 통계적 특징벡터 추출 방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 멀티 밴드 잡음 차감법을 변형하였고, 통계적 특징벡터 추출 방법의 구조를 바꾸었다. 위의 두 가지 방법의 장점을 이용하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출 방법을 제안하였다. 먼저, 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하였고, 통계적 특징벡터 추출 방법의 구조에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다. 마지막으로, 통계적 특징벡터 추출 방법의 구조에 변형된 멀티밴드 잡음 차감법을 적용하였다. 최적의 깨끗한 음성 스펙트럼을 추정하고 통계적 특징벡터의 평균과 분산을 이용함으로써 잡음 스펙트럼의 변화를 보다 정확하게 보상할 수 있었다.
제안된 방법은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 통계적 특징벡터의 평균만을 이용하여 실험을 한 경우, SS 방법에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 11.0%와 27.4% 감소하였다. 또한 통계적 특징벡터의 평균과 분산을 모두 이용하여 실험을 한 경우, SS 방법에 비하여 M-SFE와 MMSS-MSFE의 평균 에러율은 각각 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위한 좋은 방법을 제공함을 알 수 있었다.