A variety of compensation techniques have been proposed for robust speech recognition. However, conventional feature extraction methods and feature enhancement techniques do not consider aliasing noise in the feature extraction. The aliasing noise in the feature domain can occur according to insufficient frame rate. The feature extraction process using a frame shifting scheme can be viewed as a sampling process in discrete-time domain. In the signal sampling, an anti-aliasing process should be carried out based on the Nyquist sampling theorem to avoid aliasing noise. Therefore, speech features also should be extracted with the anti-aliasing process. In this thesis we analyze the effectiveness of the anti-aliasing feature extraction method that reduces the aliasing noise in the feature domain by extracting the feature sequence with small frame shift, low-pass filtering the feature sequence, and down-sampling at the frame rate same as that in the conventional feature extraction. In addition, we deal with how to determine filter types and parameters used in the anti-aliasing feature extraction. Furthermore, we investigate the combination of the anti-aliasing feature extraction and cepstral mean normalization (CMN) methods. Because two methods are independent on each other in their effects, we can expect substantial improvement in performance. Various evaluations were conducted to verify the effectiveness of the anti-aliasing feature extraction method. Experimental results show that anti-aliasing feature extraction method is very effective for large phone context task. Also, the results show that IIR type low-pass filter (LPF) is more suitable for the anti-aliasing filter in speech recognition systems. Finally, we examined the effectiveness of the anti-aliasing feature extraction in noise environments. 5.6 - 13.6 % of error reduction rate (ERR) was observed in additive noise environments and 16.9 - 19.8 % of ERR was observed in convolutive noise environments. In convolutive noise environments, we observed 24.2 - 33.4 % of ERR when using the anti-aliasing process together with CMN on over-sampling domain. This result shows a strong implication that the anti-aliasing feature extraction method can substitute other conventional feature enhancement techniques such as RASTA.
음성인식의 성능은 실제로 사용되는 환경과 훈련에 사용된 음성 데이터가 수집된 환경이 일치할 때 가장 좋은 성능을 나타낸다. 하지만 환경은 시간과 장소에 따라 항상 변화하기 때문에 이러한 조건을 만족하기란 쉽지 않다. 따라서 그 동안 다양한 종류의 보상 기법들이 연구되어 왔다. 그러나 기존의 보상 기법들은 특징 추출 과정에서 발생할 수 있는 에일리어싱 왜곡을 고려하고 있지 않으며, 따라서 이러한 에일리어싱 왜곡을 줄임으로써 음성인식의 성능을 향상시킬 수 있다. 본 논문에서는 기존의 특징추출 기법에서 불충분한 프레임 이동간격에 의해 발생하는 특징 영역에서의 에일리어싱 왜곡을 감소시키기 위하여 안티에일리어싱 특징추출 기법의 효과를 분석하고 이에 따른 효과적인 활용 방안을 제안한다. 다양한 실험을 통하여 안티에일리어싱 특징추출 기법의 특성을 분석하고 제안한 기법의 성능을 더욱 높이기 위한 방법을 알아본다. 잡음 환경에서의 인식 실험을 통하여 가산성 잡음 환경에서 5.6 - 13.6 %, 채널 잡음 환경에서 16.9 - 19.8 % 의 에러감소율을 확인하였다. 또한 안티에일리어싱 특징추출 방법을 기존의 잡음제거 기법인 CMS 와 함께 적용하여 24.2 - 33.4 % 의 에러감소율을 얻음으로써 두 방법을 함께 사용했을 때 음성인식 성능을 더욱 크게 향상시킬 수 있음을 증명하고 RASTA 와 같은 기존의 특징보상 기법을 대체할 수 있는 가능성을 확인하였다.