Speech recognition by machine has applications in many areas, but it has been achived with a limited success. This is due to the fact that the effect of background noise that exists in real environment has rarely been considered. Therefore, noise-robust feature extraction is needed.
In this thesis work, we study feature extraction of speech signal based on time normalization of low frequency bands. The low frequency bands mean 15Hz ~ 450Hz, and the time normalization is represented as the normalization of the energy of given band of each frame with respect to the total frame energy of given band. So, each feature vector is composed of time normalized and frequency normalized parts. We also proposed two-stage feature extraction different in frequency bands to be analyzed. It used the fact that low frequency bands are relatively robuster than high frequency bands when white gaussian noise is added to speech signal. Simulation results show that when time normalization of low frequency bands - based feature extraction is used, the speech recognition performance in noisy environment is considerably improved compared to other methods so far proposed.
기계에 의한 음성 인식은 많은 분야에서 활용된다. 하지만 음성 인식은 제한적으로 사용되어왔다. 이것은 실제 환경에 존재하는 배경 잡음의 영향을 고려하지 않았기때문이다. 그러므로, 잡음에 강한 특징 추출이 필요하다. 본 논문에서는 저대역 시간 정규화에 근거한 음성 신호 특징 추출을 연구하였다. 저대역은 15Hz ~ 450Hz를 의미하며, 시간 정규화는 각 프레임의 각 대역의 에너지를 각 대역의 전체 에너지로 정규화하는 것을 의미한다. 해서, 각 특징 벡터는 시간 정규화되는 그리고 주파수 정규화되는 부분으로 나누어진다. 또한, 본 논문에서는 분석하고자 하는 주파수 대역이 다른 2 단의 특징 추출기를 제안하였다. 이것은 저대역이 고대역에 비해 백색잡음환경하에서 상대적으로 강하다는 사실을 이용한 것이다. 모의실험결과는 저대역 시간 정규화에 근거한 특징 추출기가 사용될 때, 잡음환경하에서 지금까지 제안되었던 다른 방법에 비해 큰 인식률의 향상이 있었다는 것을 보여준다.