The need for a speaker-independent large vocabulary speech recognition system has been grown due to its large application area. Although the phoneme-level HMM has been widely used as an efficient algorithm for large vocabulary, the performance of the phoneme-level HMM-based recognition system has to be improved more for practical use. For this reason, a new HMM parameter estimation algorithms are proposed to improve the recognition accuracy, and an efficient pre-classification algorithm is proposed to reduce recognition time. In order to estabilish a benchmark performance performance, a phoneme-level HMM-based recognition system is first implemented as a baseline system. And then, the performance of the baseline system is improved. In this work, we focus mainly on the continuous HMMs and the semi-Continuous HMMs to improve the recognition accuracy for isolated Korean words when only insufficient training data are available.
First, in order to model temporal changes in spectra, we propose a modified HMM with nonparametric state duration probability and state duration-dependent observation probability to model state transitions and to have accurately temporal structures and timing informations. Our modeling assumption is essentially based on the fact that the temporal changes and the acoustic effects of timing differences in the spectra characterize the time-varying vocal tract, and consequently play an important role in human perception. To model transitions and state durations, and to consider the temporal structures more accurately, we use not only the transition probability, but also a set of state-duration probability combined with state duration-dependent observation probability.
Second, the HMM-based speech recognition system uses a training algorithm, which adjusts parameters to obtain an approximation to the maximum-likelihoodestimates(MLE) of HMM parameters. The MLE training algorithm does not attempt to maximize the recognition rate on the training data, but attempts to increase the probability that the HMMs generate the training data. As a result, various corrective algorithms which try to maximize the recognition rate on the training data are proposed. To this end, we propose to use a good initialization point obtained by error corrective estimation, rather than by random or probabilistic statistics in the parallel-branch model. In one method the model is obtained by adding a new subunit branch based on misrecognized data in training to the previous parallel branches for that subunit. In the other method, it is obtained by splitting off each subunit branch based on mixture components in the continuous HMM. It partitions the acoustic feature space into separate regions according to the probability distribution of the training data, and maximizes the likelihood over all training vectors. We show that a proper combination of the number of mixture components and the number of branches for each subunit results in increased recognition rate.
Finally, the use of HMM with state trajectory parameters(HMM/STP) is proposed to explicitly model allowed word state sequences with time and state durations of HMM, and to have accurately the temporal structures of speech signals in a simple but effective manner. Also, an algorithm of state trajectory parameter estimation is proposed, where the word model with the state trajectory parameters is used to match the spectral representation via the Viterbi matching procedure. First, in the use of HMM/STP, state transitions are restricted to prescribed states and time slots during the recognition phase. This would result in fewer mismatches, increased recognition rates, and greatly reduced computation time. Second, the HMM/STP with word state trajectory parameters produces accurately the temporal structures, ant at the same time solve the duration-related problems. In the HMM/STP, for each word the state duration is lower- and upper- bounded by trajectory information. The state durations of the HMM/STP are simply lower- and upper- bounded by two bounding parameters for each word in the recognition phase. The proposed HMM/STP yields higher recognition rate than the conventional HMM in isolated word recognition. By using the word state trajectory information, intensive additions can be avoided, thereby reducing the recognition time. These recognition improvement and efficient time reduction are achieved when the proposed algorithm is used as the classifier of a large vocabulary recognition system utilizing the HMM.
화자독립 대용량 단어인식 시스템에 대한 필요성은 광범위한 응용분야에서 계속 증대되고 있다. 음소단위 HMM이 대용량 단어인식 알고리즘으로 널리 연구되어지고 있지만, 실용화를 전제로 할 때 더 개선되어져야만 한다. 이 논문에서는 제한된 training data만이 이용 가능할 때 고립 한국어 단어에 대한 인식율을 향상시키기 위하여 주로 연속분포 HMM과 반 연속분포 HMM이 연구된다.
우선 스펙트럼 영역에서 시간에 따른 일시적인 변화를 modeling하기 위해 nonparametric state 점유확률과 stste 점유확률 종속적인 관찰확률을 지닌 변형된 HMM이 제안된다. 이 모델의 가정은 스펙트럼 영역에서 일시적인 변화나 timing차이의 음성학적인 효과가 시간에 따라 변하는 성도를 특징지어주며, 결과적으로 인간의 음성인식 과정에서도 중요한 역할을 한다는 사실이다. State간의 전이와 점유시간을 modeling하고 시간적인 구조를 더 정확히 고려하기 위하여 상태전이 확률 뿐만아니라 상태점유와 종속적인 관찰확률과 결합된 상태점유확률을 사용한다.
다음으로 HMM에 기초한 음성인식 시스템은 HMM계수의 maximum-likehood estimates(MLE)에 근사치를 얻는 방식으로 계산한다. 이 MLE훈련방식은 훈련 data에 대한 인식률을 극대화하는 것이 아니라, HMM이 훈련 data를 계산할 때 확률을 극대화시킨다. 결과적으로 훈련 data에 대한 인식률을 극대화시키는 다양한 에러 교정 알고리즘이 제안되었다. 이 논문연구에서는 이전에 연구된 인식을 향상의 대안으로 평행분기 음소모델의 두 가지 방법이 제안된다. 첫째 방법에서는 구하고자 하는 음소모델에 대한 이전 평행분기에 훈련과정에서 오인식 data에 근거한 새로운 음소분기를 더하여 얻어진다. 또 다른 방식에서는 연속분포 HMM에서 mixture components에 근거하여 각 음소를 분기시켜 얻어진다. 이러한 분기는 훈련 data의 확률분포에 따라 음성학적인 특징영역을 분리시켜 훈련 data에 대해 likehood를 그대화시킨다. 위와같은 방법에 의하여 mixture components와 음소의 분기수를 적절히 결합 인식률을 향상시킬 수 있음을 보였다.
마지막으로 state 구적 계수를 지닌 HMM/STP가 시간에 따라 허용된 단어 state열과 점유시간을 modeling하고 음성신호의 시간적인 구조를 단순하며 효과적인 방법으로 정확하게 modeling하기 위해 제안되었다. 또한, Viterbi matching 방법에 의해 state궤적 계수를 지닌 단어모델이 음성인식에서 사용될 수 있는 sate궤적 계수의 계산 알고리듬도 제안되었다. HMM/STP에서 인식단계 동안 state천이는 미리 규정된 state와 time slot에 제한된다. 이 방식은 인식율을 크게 증가시키며 또한 인식시간을 상당히 감소시킨다. 두번째로 단어state궤적변수를 지닌 HMM/STP는 정확히 시간적인 구조를 modeling하며 동시에 점유시간 관련 문제를 해결한다. HMM/STP에서 각 단어에 대해 state점유시간은 궤적정보에 의해 상한값과 하한값으로 제한된다. HMM/STP의 state점유시간은 단순히 각 단어에 대해 인식단계에서 두 bounding 계수에 의해 제한된다. 제안된 HMM/STP는 격리단어 인식에서 기존 HMM보다 더 높은 인식률을 보여주었다. 단어 state궤적 정보의 사용으로 많은 덧셈과정을 피할수 있었으며 이로 인해 인식시간을 크게 줄였다. 이 인식률 향상과 효율적인 인식시간 감축이 HMM을 사용하는 대용량 단어인식 시스템의 알고리듬으로 사용될 때 성취될 수 있다.