In this thesis work, we study training algorithms of hidden Markov model (HMM) parameters for speech recognition. We propose three efficient algorithms and compare their performances with that of the maximum likelihood estimation(MLE). These algorithms include the unification estimation(UE), the modified maximum mutual information estimation(MMMIE), and the corrective estimation(CE) methods. The generalization of the training algorithms shows that a training algorithm can be thought to be as a combination of a specific weighting method and its domain.
Each training algorithm can be used to improve some probabilistic characteristics of speech data as well as to increase the recognition rate. The UE method makes the variance of the probability in one speech category smaller, while the MMMIE method makes the mean of the mutual information larger. The CE method is nearly the same as the well-known corrective training(CT) approach, but requires to consider the degree of importance of each speech category.
We apply these three parameter training algorithms to the parametrization of the phoneme categories which belong to the fricative group. With this recognition experiment, we study the performance of each algorithm and compare it with that of the MLE method. According to experimental results, the performances of these algorithms are better than that of the MLE algorithm in recognition rate.
본 연구에서는 HMM을 이용한 음성 인식에 있어서 중요한, parameter training 방법을 일반화 하고, 그에 의해서 효과적인, 3 가지의 training algorithm을 제안하였다. 3 가지의 training algorithm은 UE, MMMIE 와 CE로, MLE와 성능 비교를 하였다. Training 방법의 일반화에 의하여 알려진 사실은, 하나의 training algorithm이 weighting의 방법과 domain의 결합으로 나타난다는 것이다. 여기서 weighting이라 함은, training 시에 각 training data로 부터 얻어진 정보에 가중치를 주는 것을 말한다.
제안된 training algorithm은 인식률을 올리려는 목적 외에, 각 음성 data가 지니는 특정한 확률 특성을 향상 시키려는 목적이 있다. UE는 하나의 음성 집합에 속하는 음성 data가 지니는 확률값의 평균치를 감소 시키려는 목적이 있으며, MMMIE는 각 음성 data와 그에 대한 model 사이의 mutual information을 증가 시키려는 목적이 있다. CE는 이미 널리 알려진 CT와 거의 같으나, 각 음성 집합의 중요도를 training 시에 반영 할 수 있다.
각 algorithm의 성능 비교 실험은 마찰음 군에 속하는 음소들을 이용한 음소 인식으로 수행하였다. 실험 시에 인식률 뿐만 아니라, 각 음소의 확률 특성을 구하여 이를 MLE의 경우와 비교 하였다. 실험 결과로, 제안된 algorithm들이 목적 하던 성능의 향상을 가져오는 것을 확인 하였고, MLE와 비교해서, 인식률이나 다른 확률 특성이 향상됨을 알 수 있었다.