In this thesis work, a voiced Korean phoneme recognition algorithm has been studied. For a large vocabulary speech recognition system a sub-word unit must be introduced as the basic recognition unit. In our thesis work, phoneme is selected for the recognition unit.
A voiced phoneme is recognized in two stages; phoneme segmentation and phoneme classification. In the phoneme segmentation stage a voiced region is extracted from the input speech signal using the pattern matching method based upon the statistical decision theory, and in the phoneme classification stage each phoneme in the extracted voiced region is segmented using the formant information. It is assumed that the formant variation is relatively high at and near phoneme boundary.
From the boundaries of the segmented voiced region, we label each segmented region using the hidden markov modeling whose input is a sequence from vector quantization. A phoneme is basically classified as the one whose model gives the highest scoring.
In the case of speaker-dependent recognition the recognition accuracy was 85% when the number of HMM stages was 3 and the number of codewords in VQ was 128.
연속음성 인식시스템의 구현을 위한 기초연구로써 수행된 유성음 음소에 대한 분류는 음소의 분리과정과 분리된 음소에 대한 인식과정으로 나누어 수행되었다. 음소의 분리작업은 먼저 statistical pattern recognition방법을 이용해 유성음 영역을 분리한 다음, 그 영역에서 다시 formant 정보를 이용해 각 유성음 음소를 분리해 내는 방식으로 이루어 졌다. 음성의 특징을 나타내는 feature vector로는 LPC 계수가 사용되었다. 분리된 유성음 음소에 대한 인식은 통계적 방법에 근거를 둔 vector quantization과 hidden markov model을 통해 이루어졌다. 본 연구에서는 화자 종속에 대한 연구만을 수행했으며, 그 인식결과를 보면 인식률이 인식과정뿐 아니라 음소의 분리과정에서의 정확성에도 상당히 영향을 받음을 알수 있었다.