In this thesis work, a statistical approach to automatic phoneme segmentation and a feature map-based phoneme classification algorithm are proposed and there performances are obtained.
First, using the all pole model of speech signal, a test statistic is defined as a function of likelihood ratio and the mutual information between adjacent regions of speech signal. By observing the variation of the test statistic, we can detect phoneme boundaries where the abrupt spectral changes occur, thus can segment speech into phoneme units. Using this phoneme segmentation method, phoneme segmentation errors occur in two ways: one is the non-detection error and the other is the false alarm error. The two types of errors can be compensated by using the signed front-to-back maximum area ratio (called SFBR) and the smoothing technique applied to the over-segmented boundaries, respectively. Non-detection error also has been reduced through the coarse vowel-nasal segmentation. From the computer simulation of proposed phoneme segmentation method for speaker-independent speech, we obtained error rates of 10% and 20% for the non-detection error and the false alarm error, respectively.
Second, a feature map-based algorithm is studied to classify Korean phonemes. The algorithm is obtained using the Kohonen's feature map method by iteratively applying the conventional LVQ2 and the newly proposed modified LVQ2 training algorithm. Separate feature maps are made for six different phoneme classes. From the computer simulation results of the proposed speaker-independent phoneme classification algorithm, we obtained the intra-class phoneme recognition rate of about 65% which is about 8% above that can be obtained by using the HMM method. Combining the phoneme segmentation and proposed phoneme classification methods, the phoneme recognition rates are lowered to 58% with manual segmentation and 50% with automatic segmentation by the proposed segmentation method.
본 논문에서는 통계적 방법에 의한 음소의 자동 분할과 분할된 음소를 신경회로망을 이용하여 분류하는 연구를 수행하였다.
음소 분할은 우선 음성 신호를 AR 모델로 모델링한 후 스펙트럼이 변화하기 전과 변화한 후의 모델에 대해서 likelihood ratio와 mutual information을 고려한 test statistics로 부터 모델 계수가 변화하는 곳을 예측해 내고 이곳을 음소의 경계로 판단한다. 이 경우 검파되지 못하는 대부분의 음소는 짧은 자음이었으며 SFBR을 이용하여 개선하였다. 또한 false alarm error를 줄이기 위해 두 segment 사이의 distortion으로 부터 smoothing을 하였다. 그리고 모 비음 구간을 미리 예측하여 cumsum test에 적용함으로써 non-detection error를 줄였다. 3명의 화자에 대한 실험 결과 non-detection error는 10% 정도, false alarm error는 20% 정도로 나타났지만 화자 간에 알고리즘의 성능 변화가 거의 없으며 특히 분할된 경계치 분포는 전체 음소의 90% 이상이 30ms 이내에 위치하였다.
분할된 음소에 대한 인식은 신경 회로망 이론에 근거 하였다. 음소를 7가지의 음소군으로 분류한 후 각각의 음소군에 대해 Kohonen의 feature map과 LVQ2 그리고 이를 개선한 modified LVQ2를 이용하여 feature map을 형성하였다. 특히 평음과 격음에 대해서는 transient map을 만들었다. 화자 독립의 경우 음소 인식 결과는 약 65% 정도로 통계적 방법에 근거한 HMM 시스템에 비교해서 8% 정도 높았다. 여기에 control network의 성능을 고려한 경우에는 58% 정도를 얻을 수 있었다. 그리고 분할된 음소에 대한 인식 결과는 50% 정도로 매우 낮았으나 분류된 음소열을 가지고 false alarm error를 5% 정도 개선할 수 있었다.