To use a speech recognition system in a practical environment, the speech recognizer should have the robustness with respect to unexpected changes in the acoustical environment as well as the inherent variability of the speech signal. In this dissertation we propose and analyze robust spectral representations derived from short-time speech spectrum, which are less sensitive to the environmental changes due to speakers or background noise, and yield smaller number of bits or low dimensional representation without performance degradation.
By performing spectral peak enhancement to an all-pole model spectrum and integrating th resultant binarized spectrum with nonlinear frequency scale, several kinds of the frequency-weighted spectral representations were derived. The spectral peak was enhanced by thresholding the second-order spatial derivative of the spectral envelope with respect to frequency to relax the sensitivity of distance measure to the peak amplitude as well as to enhance the spectral peak.
The proposed representations are applied to nasal, stop, and isolated digit recognition in clean, white noise added, and band-limited conditions. To evaluate the recognition performance, we used an all-pole model based features, LPC cepstrum and mel-cepstrum, and filter bank based features with Euclidian and several weighted cepstral distance measures in a template-based isolated word recognition system.
The proposed features showed improvement in the recognition accuracy for the nasal-vowel syllables in clean, white Gaussian noise added, and band-limited conditions. While the performance of stop-vowel syllable recognition was decreased, the recognition result of isolated digits was competitive compared to the best conventional representation and distance measure, but the robustness and the representation efficiency were improved.
Among the frequency-weighted spectral representations, critical-band peak presence vector(CBPPV) which consists of 17 bits representing peak presence in each frequency and shows high accuracy and high-degree of robustness in clean, white noise added, and band-limited conditions, while the mel-cepstrum using root power sum (RPS) distance measure achieving best performance for the male speakers in white noisy conditions shows drastic performance degradation in the recognition of female speech in noise added conditions. We expect a distance measure tuned to the proposed representations may obtain higher recognition accuracy.
음성인식 시스템을 실제 환경에 사용할수 있으려면, 음성신호내에 포함된 변화는 물론 예기치 못한 음향 환경의 변화에도 그 성능이 영향을 받지 않아야 한다. 본 논문에서는 robust한 음성인식을 위해 환경적인 음향변화에 덜 민감한 스펙트럼 표현을 제안하였다. 또한 다양한 인식실험을 통해, 화자의 변화, 백색잡음, 그리고 음성주파수 대역이 제한된 환경 등에서 기존의 특징표현이나 거리척도 방법에 비해 향상된 성능을 확인하였다.
제안된 스펙트럼 표현은 인간의 청각 인지과정의 중요한 특징으로 알려진 스펙트럼피크부분의 강조, 비선형적 주파수 분해능 및 포화성 등을 선형 예측 스펙트럼에 적용하여 유도되었다. 크기가 정규화된 선형예측 스페트럼의 2차 미분함수의 임계값에 따라 이진화된 스펙트럼은 임계대역 (critical-band) 또는 멜 대역 (mel-scale)으로 변환되어 사용되거나, LPC켑스트럼 (cepstrum)이나 멜켑스트럼과 비교하기 위해, 코사인 변형을 통해 켑스트럼계수로 변환되어 사용되었다.
유성음으로 구성된 음절인식실험에서, 제안된 표현은 무잡음, 백색잡음, 대역제한 등의 조건에서 필터뱅크에 의한 특징계수는 물론 LPC켑스트럼이나 멜켑스트럼보다 우수한 성능을 보였으며, 남녀 음성의 차이에 대해서도 켑스트럼을 RPS척도에 의해 비교한 경우보다 안정된 성능을 나타냈다. 파열음 인식에서는 제안된 표현의 성능이 저하되었으나, 숫자음 인식에서는 RPS척도의 켑스트럼과 견줄만한 성능을 보였으며 그 안정성은 증대되었다. 또한 제안된 스펙트럼 표현은 기존의 특징계수보다 훨씬 더 압축된 표현이 가능하여 거리계산량이 증가할수록 유리하다.