Recently, hidden Markov model (HMM) has become the predominant approach to speech recognition. Although the conventional HMM is good at modeling the stationary and sequential characteristics of speech signals, it has inherent drawbacks of poor duration modeling and weak discrimination capability between competing classes. In this dissertation work, we present various methods to improve acoustic modeling in speech recognition based on continuous density HMM.
First, we propose to model and incorporate context-dependent word duration information to reduce insertion and deletion errors in connected digit recognizers. The proposed method is different from the conventional postprocessing-based method in that it is incorporated directly in the Viterbi decoding algorithm. Experimental results show that the proposed method reduces word error rates by as much as 10% for unknown length decoding, while the postprocessing method does not achieve significant improvements over a baseline system. Simple duration modeling by a bounded uniform distribution achieves performance improvements comparable to detailed duration modeling by a gamma or Gaussian distribution with low complexity, and therefore it is a good compromise between performance and complexity.
Second, we propose a supersegment-based postprocessing approach to improve recognition accuracies for connected digit recognition. A supersegment for a string means a concatenation of one or more segments sharing similar begin- and end-points with the other strings within some tolerances. In the approach, N-best candidate strings are generated by a conventional recognizer and string-matched so that they are all represented by the same number of supersegments. We obtain total log likelihoods by combining the conventional first-stage recognizer and a supersegment-based second-stage postprocessor. Experimental results show that connected digit recognizers by the supersegment-based postprocessing method achieves about 20% decrease of word errors compared with recognizers without postprocessing and 4% compared with the conventional segment-based postprocessing when the recognizer is trained by maximum likelihood estimation, and 10% and 6% decrease, respectively, when the recognizer is trained by the generalized probabilistic descent method.
Third, we propose a new method to find discriminative state-weights. Speech intervals of a word with features discriminating from other words are emphasized in the method. Assuming that the score of a speech utterance is a weighted sum of HMM log state-likelihoods, we use the generalized probabilistic descent method to estimate the state-weights. Compared with the previous approaches, the proposed method does not increase the complexity of the recognizer and can be implemented with minor modification of the conventional parameter estimation and recognition algorithms by constraining the sum of the state-weights. Experimental results show that the recognizers with phoneme-based and word-based state-weights achieve 20% and 50% decrease in word error rate, respectively, for isolated word recognition, and 5% decrease for continuous speech recognition. Our approach yields recognition accuracies comparable to those of the previous approaches for continuous speech recognition, but it is much simpler to implement than others.
Finally, we analyze the performance of a vocabulary-independent speech recognizer with speaker adaptation. The vocabulary-independent speech recognizer does not require task-oriented speech databases to estimate HMM parameters, but adapts the parameters recursively by using input speech and recognition results. The recognizer has the advantage that it relieves efforts to record the speech databases and can be easily adapted to a new task and a new speaker with different recognition vocabulary without losing recognition accuracies. Experimental results show that the vocabulary-independent speech recognizer with off-line speaker adaptation reduces 40% of recognition errors when 80 words from the same vocabulary as test data are used as adaptation data. The recognizer with on-line speaker adaptation reduces about 43% of recognition errors. This performance is comparable to that of a speaker-independent speech recognizer trained by a task-oriented speech database.
은닉 마코프 모델(HMM)은 음성인식을 위하여 최근에 가장 널리 사용되고 있는 기법이다. 그러나, 기존의 HMM은 시간적으로 변화하는 음성신호의 특성을 어느 정도 잘 모델링하기는 하지만, 지속시간이 실제 음성신호에서와 다르며 경쟁 클래스 사이의 변별력이 약하다는 단점을 가지고 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 연속밀도 HMM을 이용한 음성인식에서의 음향모델링 개선 방법들을 제시하였다.
첫째, 문맥에 의존하는 단어 지속시간 모델링을 연구하였다. 이는 한국어 연결 숫자음 인식기에서 전체 오류의 50% 정도를 차지하는 단음소 숫자음에 관련된 첨가 및 삭제 오류를 줄이기 위한 것이다. 기존에는 후처리 방법으로 지속시간 정보를 이용하였으나 본 논문에서는 성능향상을 위하여 인식기의 Viterbi복호 알고리듬에 직접 적용하였다. 실험결과에 의하면 후처리 방법에서는 인식률 향상이 거의 없었으나 제안된 방법으로는 약 10%의 단어 오류를 줄이는 것으로 나타났다. 또한 제한된 균일 분포로 지속시간을 모델링 할 경우에도 감마나 가우시안 분포로 모델링 한 경우와 비교하여 인식률 차이가 거의 없었다. 따라서 제한된 균일 분포에 의한 지속시간 모델링이 인식률과 복잡도 측면에서 가장 좋은 방법이다.
둘째, 수퍼세그멘트에 기초한 후처리 기법을 제안하였다. 수퍼세그멘트는 정합되는 두 문장 세그먼트의 서브셋 중에서 시작점과 끝점이 유사한 한개 이상의 세그먼트로 이루어지는 세그먼트 집합이다. 이 기법에서는 먼저 기존의 인식를 사용하여 N개의 후보 문장이 발생된다. 후보문장들은 수퍼세그멘트의 갯수가 모두 같아지도록 스트링 정합 과정을 거친다. N개의 후보문장으로부터 최종 인식결과를 얻기 위하여 두가지 방법을 사용하였다. 첫번째 방법에서는 각 문장의 수퍼세그멘트에 기초한 likelihood을 기존 인식기 likelihood과 결합하여 최종 likelihood이 가장 큰 문장을 최종 인식결과로 결정한다. 두번째 방법에서는 기존 인식기에서 가장 높은 likelihood을 갖는 문장의 각 수퍼세그멘트에 대하여 N개 후보문장의 수퍼세그멘트와의 가설검증을 거쳐서 최종 인식결과를 결정한다. 실험결과에 의하면 일반화된 확률경사(GPD) 방법에 의하여 인식기를 학습하였을 경우에 첫번째 방법은 기존 후처리 방법 뛰어난 성능을 나타내지 않는 반면에 두번째 방법은 후처리하지 않은 경우보다 약 10%,세그멘트에 기초한 후처리 방법보다 약 6%의 인식오류를 감소시켰다. 오류패턴을 조사한 결과에 의하여 제안 방법이 연결 숫자음 인식에서의 삭제 오류를 감소하는 데 효과적임을 보였다.
세째, 어떤 발성 문장의 likelihood이 로그 상태 likelihood의 선형결합이라고 가정하고, GPD방법에 의하여 그 변별적인 가중치를 구하고 이를 이용하여 인식하는 방법을 제안하였다. 이 방법은 서로 혼동되기 쉬운 단어쌍이 있을 경우에 다른 단어의 음성신호와 차이가 있는 음성신호 부분에 더 큰 가중치를 부여함으로써 인식기의 변별력을 높이기 위한 것이다. 기존 방법과 비교하였을 때 제안 방법은 기존 HMM의 파라미터 추정 및 인식 알고리듬을 약간만 수정함으로써 쉽게 구현할 수 있다. 실험결과에 의하여 제안된 방법은 단어단위의 상태 가중치를 사용한 경우에 격리단어인식에서는 약 50%의 오류를 감소시켰으며, 연속음성인식에서는 약 5%의 오류를 감소시켰다.
마지막으로, 화자적응을 가진 어휘독립 음성인식기의 성능을 분석하였다. 어휘독립 음성인식기는 모든 인식 단위에 대한 HMM 파라미터를 가지고 있기 때문에 새로운 태스크의 어휘를 인식하기 위하여 인식 태스크 영역의 음성데이타베이스를 사용한 재학습과정이 불필요하다. 따라서 음성데이타베이스 구축에 필요한 노력을 줄여주며 임의의 태스크에 사용될 수 있다. 그러나 일반적으로 어휘독립 인식기의 인식률은 인식 태스크 전용 인식기에 비하여 상대적으로 낮다. 이러한 배경에서 어휘독립 음성인식기의 성능을 향상시키고자 화자적응 기법을 적용하였다. 온라인 화자적응 모드에서의 어휘독립 음성인식기는 인식을 수행하는 동시에, 입력 음성과 그 인식결과를 이용하여 발성화자에 맞도록 HMM 파라미터를 적응한다. 선험 파라미터의 추정과정을 없애고 변수의 갯수를 줄이기 위하여 최대사후 추정 알고리듬을 단순화하여 HMM 파라미터를 적응하였다. 실험결과에 의하면 어휘독립 음성인식기를 오프라인 모드에서 80개의 단어를 사용하여 적응시켰을때 약 40%의 오류를 감소시켰으며, 온라인 적응 모드에서는 약 43%의 오류를 감소시켰다. 이러한 인식결과는 인식 태스크 전용의 화자독립 인식기의 성능에 근접하는 것이다.