서지주요정보
(A) study on the performance improvement of thespeech recognition system based on the phoneme-level hidden markov model = 음소 단위의 Hidden Markov model 을 이용하는 음성인식 시스템의 성능 향상에 관한 연구
서명 / 저자 (A) study on the performance improvement of thespeech recognition system based on the phoneme-level hidden markov model = 음소 단위의 Hidden Markov model 을 이용하는 음성인식 시스템의 성능 향상에 관한 연구 / Jun-Mo Koo.
저자명 Koo, Jun-Mo ; 구준모
발행사항 [대전 : 한국과학기술원, 1991].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8002325

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 9125

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The need for a speaker-independent large vocabulary speech recognition system has been grown due to its large application area. Although the phoneme-level HMM has been widely used as an efficient algorithm for large vocabulary, the performance of the phoneme-level HMM-based recognition system have to be improved more form practical use. For this reason, a new HMM parameter estimation algorithm and a VQ codebook design procedure are proposed to raise recognition accuracy, and an efficient pre-classification algorithm is proposed to reduce recognition time. In order to establish a benchmark performance, a phoneme-level HMM-based recognition system is first implemented as a baseline system. And then, the performance of the baseline system is improved. First, two methods of improving HMM parameter estimation algorithm are presented. The first one is an HMM parameter estimation method minimizing error rate. In this method, a performance function which is proportional to the accuracy of the recognition system is introduced. HMM parameters are estimated so that the performance function can be maximized. The proposed algorithm emphasizes training patterns making errors or near-misses. Applying this algorithm to the baseline systems, the error rate for training data is significantly reduced, but the error rate for test data is slightly decreased. The second method is an HMM parameter smoothing method based on the fuzzy mapping concept. In this method, HMM parameters are smoothed by the smoothing matrix obtained by the fuzzy relationship between output symbols and training data. The fuzzy smoothing method reduces the error rate of the baseline system by approximately 50 percent. Second, a VQ codebook design algorithm integrated with HMM is proposed so that the discrimination ability and the robustness of HMM parameters can be improved. For this purpose, we extract codewords from the state segments of each recognition unit by an MKM algorithm or an LVQ2 algorithm, where the segmentation information is obtained by the Viterbi algorithm. For implementation, a unified estimation, a unified estimation algorithm of VQ codebook and HMM parameters is presented, in which a VQ codebook design procedure and an HMM parameter estimation procedure are alternated until convergence is obtained. The accuracy of the recognition system based on the proposed codebooks are evaluated and compared to those based on the conventional codebooks. The HMM-integrated codebook using the LVQ2 method showed the highest recognition accuracy when HMM parameters are used directly. When HMM parameters are smoothed, the error rate of the baseline system is reduced up to 60 percent for an HMM-integrated codebook using the MKM method. Finally, a recognition time reduction algorithm is proposed. The proposed algorithm reduced recognition time by choosing candidate words for more detailed inspection according to the coarse likelihood score of every word in lexicon. To compute the coarse likelihood score in a short time, the duration information and speech spectra observation probability of recognition units are used. And two smoothing methods for speech spectra observation probability are proposed to improve the classification performance. The computational time of the proposed algorithm is only 7.5 percent of the time required to perform the Viterbi score computation for every word in lexicon. For a 1160-word recognition system, about 72 percent of recognition time can be saved by selecting 20 percent of the vocabulary as candidate words. In this case, the degradation of recognition accuracy is negligible.

화자독립 음성인식 시스템은 다양한 응용분야를 갖고 있어 그 필요성이 점점 커지고 있다. 음소 단위의 HMM이 대용량 단어인식을 위한 효과적인 방법으로 널리 이용되고 있지만 음소단위의 HMM을 이용하는 음성인식 시스템을 실용화하기 위해서는 그 성능을 개선하여야 한다. 본 연구에서는 인식율 향상을 위하여 새로운 HMM parameter 추정 방법과 VQ codebook 설계 방법을 제안하였으며 인식시간을 줄이기 위하여 효과적인 후보단어 선정 방법을 연구하였다. 이를 위하여 음소단위의 HMM 을 이용하는 기준 음성인식 시스템을 구성하고 그 성능을 개선하였으며 그 내용은 다음과 같다. 첫째로, HMM parameter 추정 방법을 개선하기 위하여 두가지 연구를 수행하였다. 첫번째 방법은 오인식율을 최소화하는 HMM parameter 추정 방법에 관한 것이다. 이를 위하여 인식율에 비례하는 성능함수를 도입하고 이를 최대화하는 HMM parameter 를 추정하도록 하였다. 제안된 방법은 오인식이나 근사 오인식을 발생시키는 training pattern을 강조하는 것으로 밝혀졌다. 이 방법을 기준 시스템에 적용한 결과, training data에 대한 오인식율은 크게 감소하였지만 test data에 대한 오인식율은 약간 감소하였다. 두번째 방법은 fuzzy mapping 개념을 이용하여 HMM parameter를 평활화하는 방법이다. HMM parameter는 출력 symbol과 training data 간의 fuzzy 관계에 의하여 구성된 평활화 행렬에 의하여 평활화된다. Fuzzy 평활화 방법은 기준 시스템의 오인식율을 50% 가량 감소시켰다. 두번째로 HMM parameter의 변별능력을 향상시키고 다양한 음성의 변화에 일정한 성능을 유지할 수 있는, HMM 과 결합된 VQ codebook 설계 방법을 제안하였다. 이 방법은 codeword를 각 음소단위의 state segment로부터 추출하는 방법이며, 이때 state 분할에 관한 정보는 Viterbi 알고리즘에 의하여 얻어진다. 이를 구현하기 위하여, VQ codebook 설계와 HMM parameter 추정과정을 이들이 수렴할 때까지 교대로 반복하는, VQ codebook 과 HMM parameter 의 추정과정이 통합된 알고리즘을 제안하였다. 제안된 codebook을 사용한 음성인식 시스템의 성능을 측정하고 이를 기존의 codebook을 사용하는 경우와 비교하였다. 그 결과, HMM parameter를 직접 사용하는 경우에는 LVQ2 방법을 이용한 HMM 결합 codebook이 가장 높은 인식율을 보였다. HMM parameter를 평활화하는 경우에는 MKM 방법을 이용한 HMM 결합 codebook이 가장 좋은 성능을 보였으며, 이 경우 기준 시스템의 오인식율을 약 60%까지 줄일 수 있었다. 마지막으로 인식시간 감축 알고리즘이 제안되었다. 이 방법은 인식 대상 어휘에 대하여 coares likelihood score를 계산하고 이 값에 따라 후보단어를 선정하므로써 인식 시간을 감축한다. Coarse likelihood score를 빠른 시간에 계산하기 위하여 음성인식 단위의 길이 정보와 음성 spectrum 관찰 확률을 이용하였다. 또한, 이 알고리즘의 성능을 개선하기 위하여 음성 spectrum 관찰 확률을 평활화하는 두가지 방법을 제안하였다. 후보 단어를 선정하는데 필요한 계산시간은 모든 단어에 대하여 Viterbi score를 계산하는 경우의 약 7.5%에 불과하였다. 제안된 방법을 1160 단어 인식 시스템에 적용한 결과, 인식 대상 어휘의 20%를 후보단어로 선택하는 경우에 약 72%의 인식 시간을 감축할 수 있었으며 이로 인한 인식율의 감소는 매우 작았다.

서지기타정보

서지기타정보
청구기호 {DEE 9125
형태사항 xi, 122 p. : 삽도 ; 26 cm
언어 영어
일반주기 Includes appendix
저자명의 한글표기 : 구준모
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기 및 전자공학과,
서지주기 Reference : p. 109-121
주제 Speech perception
Phonetics
Learning models (Stochastic processes)
Fuzzy algorithms
Markov 과정 --과학기술용어시소러스
음성 인식 --과학기술용어시소러스
음소 --과학기술용어시소러스
학습 모델 --과학기술용어시소러스
퍼지 집합 --과학기술용어시소러스
Markov processes
QR CODE qr code