The problem of noise robustness is one of the most important issues for comercializing of speech recognition systems. This dissertation details the development of robust feature representation for the speech recognition in adverse environments. The basic aim is to remove slow-varying noise and speaker-specific components by filtering of feature parameter sequence. While conventional high-pass approaches use a band-pass or a high-pass filter in the feature parameter domain, the proposed methods introduce the decorrelation principle to suppress noise components and to satisfy the observation independent assumption of hidden Markov model (HMM). This decorrelation principle is implemented as a temporal filter to provide an alternative of conventional filtering methods.
First, according to the decorrelation principle, a novel filter design method for high-pass approaches was proposed. This decorrelation technique derived a well structured high-pass filter, and the Wiener filtering was added to suppress the artifacts introduced by a overlapped frame analysis. Thus, the resulting filter was implemented as a band-pass filter, which attenuates low modulation frequencies. The proposed frame decorrelation processing (FDP) effectively de-emphasized noise components, and confirmed the effect of high-pass approaches with a theoretical justification. In order to perform the FDP, the power spectrum of the feature sequence was first estimated, and the error bounds due to a feature analysis were extracted. Then, the FDP provided a band-pass filter using the obtained power spectrum and error bounds. The experimental results indicated that the FDP outperformed other methods for a noisy speech recognition. Note that sufficient states for each HMM are required. Since high-pass approaches attenuate the stationary regions, this may be critical in the stationary-based recognizer. Compared to the delta feature with only transitional information, the FDP included both instantaneous and transitional information. The experimental result showed that the FDP may contain most of the delta feature property.
Second, a new design method of the high-pass approaches was proposed, which provides a new filter for a given utterance. It was a data-driven method providing an adaptive high-pass filter every utterance. Since environments affect differently on the modulation frequency and correlation informations of feature parameter sequence are different from a recognition task, an adaptive approach is required for particular utterance in any environment. The proposed method was based on the local blind decorrelation of the feature parameter sequence, and the entropy-maximization theory was applied to perform such a decorrelation. The entropy-maximization algorithm can present all the higher-order moments besides the second-order moment of the FDP. Based on this theory, a deterministic learning algorithm was developed and performed on utterance-by-utterance basis. First, the proposed method was implemented as a finite impulse response (FIR) filter form in log-spectral domain of mel-frequency cepstral coefficients (MFCCs) extraction process. The filter order was determined by the time-span related to the temporal correlation of frame sequence. Experimental results showed that the proposed method was outstanding at severe noise conditions. Particulary, it was more significant for the continuous speech recognition than other methods. Next, an infinite impulse response (IIR) filter form was tried to implement the proposed method. The design procedure of IIR filter was approximated due to complex computation. Recognition results indicated that the IIR form can provide similar performance to that of the FIR filter with less coefficients. Finally, the proposed FIR filter was also applied to MFCCs and perceptual linear predictive (PLP) representation. The results showed that the proposed method can be applied on various feature representations.'
잡음의 해결은 음성 인식기의 상업화를 위해 가장 중요한 문제 중 하나이다. 이를 위해 다양한 기법들이 제시되었으나, 본 논문은 잡음 환경에서의 음성 인식을 위한 강인한 특징 표현의 개발을 다룬다. 기본 개념은 특징 파라미터 영역에서 비교적 느리게 변하는 잡음과 화자 의존적 성분들을 제거하는 것이다. 기존의 고역 통과 접근법이 특징 파라미터 영역에서 대역 통과 혹은 고역 통과 필터를 사용하는데 비해, 제안된 방법들은 잡음 성분을 억누르고 HMM 인식기의 관측열 독립 가정을 만족시키기 위해 decorrelation 원리를 소개한다. 이 decorrelation 원리를 이용하여, 제안된 방법들은 기존의 필터 사용 기법들을 대체하기 위해 시간상의 필터로 구현되어 진다. 본 논문에서 제안된 방법들은 다음과 같이 요약된다. 첫째, decorrelation 원리에 따라 고역 통과 접근법을 위한 새로운 필터 설계 방법이 제안되었다. 이 decorrelation은 잘 구조화된 고역 통과 필터를 유도하였고, Wiener 필터 기법이 중첩된 프레임 해석에 의해 야기된 인위적인 오류를 줄이기 위해 첨가되었다. 따라서, 결과적인 필터는 modulation 주파수의 낮은 영역을 억누르는 대역 통과 필터로 구현되었다. 제안된 방법은 잡음 성분을 효과적으로 제거하였고, 이론적 정당성하에서 고역 통과 접근법의 효과를 입증하였다. 제안된 방법을 위해 먼저 특징 파라미터 열의 파워 스펙트럼이 추정되었고, 프레임 해석으로 인한 오류 영역이 modulation 주파수상에서 추출되었다. 다음으로 얻어진 파워 스펙트럼과 오류 영역으로부터 대역 통과 필터가 구성되었다. 실험 결과는 제안된 방법이 잡음 음성 인식에 있어 기존의 필터 접근법을 능가함을 보여주었다. 주목할 점은 각 HMM을 위해 충분한 수의 상태 (state)가 요구된다는 것이다. 이것은 고역 통과 접근법이 정상상태 (stationary) 영역을 줄이기 때문에 HMM 인식기에서는 중요한 것일지도 모른다. 변이 (transitional) 정보만을 가지는 델타 특징에 비해 제안된 방법은 순간 (instantaneous) 정보와 변이 정보를 동시에 가질 수 있으며, 실험 결과는 제안된 방법이 델타 특징이 가지는 특성의 대부분을 가지고 있음을 보여주었다.
둘째, 주어진 음성마다 새로운 필터를 제공하는 고역 통과 접근법의 새로운 설계 방법이 제안되었다. 이 방법은 모든 음성마다 적응 고역 통과 필터를 제공하는 기법이다. 외부 환경이 modulation 주파수상에서 서로 다른 영향을 미치고, 특징 파라미터 열의 상관관계가 인식 태스크마다 다르기 때문에 적응 기법이 요구되어 진다. 제안된 방법은 특징 파라미터 열의 부분적 blind decorrelation에 기초하였으며, 엔트로피 최대법이 그런 decorrelation을 얻기 위해 적용되었다. 엔트로피 최대법은 관측열 독립 조건을 위해 모든 고차 모멘트를 제공할 수 있다. 이 방법에 기초하여 학습 알고리즘이 개발되었고, 주어지는 입력 음성마다 수행되었다. 먼저 제안된 방법은 MFCC 추출 과정의 log-spectral 영역에서 유한 임펄스 응답 필터로 구현되었다. 실험 결과는 제안된 방법이 심각한 잡음 환경에서 두드러진 성능을 가짐을 보여주었다. 특히, 이것은 연속 음성 인식에서 잘 나타났다. 다음으로 무한 임펄스 응답 필터의 구현이 시도되었다. 무한 임펄스 응답 필터의 설계 과정은 복잡한 계산으로 인해 간략화되었다. 인식 결과는 무한 임펄스 응답 필터가 적은 계수로도 유한 임펄스 응답 필터와 비슷한 성능을 가짐을 나타내었다. 마지막으로, 제안된 필터는 MFCC와 PLP 특징 표현에도 적용되었다. 결과는 제안된 방법이 다양한 특징 표현에 사용될 수 있음을 보여주었다.