서지주요정보
(A) study on speaker adaptation for a large vocabulary speech recognition system = 대용량 단어 음성인식 시스템을 위한 화자적응에 관한 연구
서명 / 저자 (A) study on speaker adaptation for a large vocabulary speech recognition system = 대용량 단어 음성인식 시스템을 위한 화자적응에 관한 연구 / Myoung-Wan Koo.
저자명 Koo, Myoung-Wan ; 구명완
발행사항 [대전 : 한국과학기술원, 1991].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8002324

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 9124

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The main objective of this dissertation is the development of a speaker adaptive speech recognition system which can yield the acceptable recognition rate even for speakers who have not provided enough speech to train the recognition system. This system consists of the baseline system and the speaker adaptation system which is made up of two stages: codebook adaptation and HMM parameter adaptation. First, we presented a speaker-dependent system based on HMM. This system has been used the baseline system for speaker adaptation. Second, we proposed a modified Viterbi scoring algorithm to improve the discriminability of phonetically similar words. The proposed algorithm weights the Viterbi scores of state which are considered to be perceptually important. When the candidate words were so similar that the phonetical difference between the top 1 and top 2 candidates was one phoneme, the modified Viterbi algorithm reduced the recognition error rate by about 19% as compared to the conventional method. Third, we proposed a codebook adaptation scheme using a neurally-inspired LVQ with highly discriminant ability. By the proposed scheme, the codebook was generated to have the discriminant feature rather than the minimum distortion for adaptation speech. From the adaptation speech. From the adaptation experiment, we found that the adaptation with LVQ codebook resulted in higher distortion error than that with conventional codebook but the recognition rate was better, and that LVQ2 codebook, in which K-means each codebook was used to initialize, yielded the best recognition rate. Fourth, we presented a modified corrective training algorithm as a method to improve the performance of HMM parameter adaptation. The observation probability parameters of HMM are re-estimated by this algorithm after performing the spectral mapping algorithm. From the experiment, we found that the performance of the speaker adaptation system was improved after adopting the modified CT algorithm, and that the highest recognition rate was obtained when the modified CT algorithm was performed on the speaker adaptation system based on LVQ1 codebook in which the k-means each codebook was used to initialize the LVQ1 codebook. Fifth, we presented a hybrid normalization algorithm for feature normalization. Two kinds of normalization algorithms: the iterative DTW method and the mapped codebook algorithm were considered and combined into one for a hybrid normalization algorithm. The experiment indicated that the adaptation by the hybrid normalization method gave the highest recognition rate similar to that by the mapped codebook even though the average DTW distance by the hybrid normalization method is much smaller than that by the mapped codebook method. Finally, we established the speaker-independent, speaker adaptive and speaker-dependent recognition systems, and compared their performances with each other. From the experiment using the same male speaker, we obtained the recognition rate of 80.3% with the speaker-independent recognition systems, and 96.3% with the speaker adaptation system. Then we established the speaker-dependent recognition system using the corrective training algorithm and obtained the recognition rate of 98.0%.

본 연구의 주요목적은 새로운 화자에 적응이 가능한 음성인식 시스템을 개발하는 것으로서 적응 데이타가 적어도 높은 인식률을 얻을 수 있게 하는 알고리즘을 개발하는 것이다. 이러한 시스템은 기준 음성인식 시스템과 화자적응 시스템으로 구성되며, 화자적응 시스템은 codebook 적응시스템과 HMM 파라미터 적응시스템으로 구성된다. 첫째로, 음소단위의 HMM 모델을 사용하는 기준 음성인식 시스템을 개발하였다. 이 시스템은 화자종속 음성인식 시스템이다. 둘째로, 음소의 구성이 비슷한 단어사이의 변별력을 향상시키기 위하여 수정된 Viterbi 알고리즘을 제안하였다. 이 알고리즘은 인지적으로 중요한 음소를 구성하고 있는 state에 해당되는 Viterbi값을 중요시 한다. Viterbi값이 가장 큰 첫번째 후보단어이자 두번째 후보단어 사이의 음운차이가 음소 한 개일 경우 제안된 알고리즘은 오인식률을 19% 감소시켰다. 세째로, 변별력이 좋은 LVQ 를 사용하는 codebook 적응방식을 제안하였다. 제안된 알고리즘은 새로운 화자의 codebook이 변별특징을 갖게끔 codebook 을 생성한다. 제안된 알고리즘을 기존의 방법과 성능비교를 한 결과 LVQ codebook 을 사용한 화자적응 방식이 우수하다는 것을 알았으며, 특히 매 음소단위로 codebook을 구성한 후 LVQ2 알고리즘을 적용하였을 경우 최고의 인식율을 나타냈다. 네째로, HMM 파라미터 적응방식의 성능을 향상 시키기위하여 변경된 corrective training 알고리즘을 제안하였다. 제안된 알고리즘은 기존의 spectral mapping 알고리즘을 수행한 후 HMM 파라미터를 새로운 화자에 대한 적응력이 향상되도록 재구성한다. 이 방식은 기존의 형식에 비하여 높은 인식율을 나타내었으며, 특히 세째로 제안된 codebook 적응방식과 결합시켜 최고의 인식율을 얻을 수 있었다. 다섯째로, 화자간의 특징을 정규화하기 위하여 hybrid 정규화 방식을 제안하였다. 제안된 방식은 기존의 iterative DTW 방식과 codebook mapping 방식을 결합시킨 방식으로서 가장 적은 정규화 거리값을 나타내었지만 새로운 화자에 대한 인식 실험결과 mapped codebook 방식에 의한 인식율과 비슷하였다. 마지막으로, 화자독립, 화자적응 및 화자종속 음성인식 시스템을 구성하여 성능을 비교하였다. 동일한 화자에 대해 화자독립 음성인식 시스템은 80.3%의 인식율을 나타내었으며 화자적응 음성인식 시스템은 96.3%의 인식율을 나타내었다. 화자종속 음성인식 시스템으로부터는 98.0%의 인식율울 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 9124
형태사항 xi, 125 p. : 삽도 ; 26 cm
언어 영어
일반주기 Includes appendix
저자명의 한글표기 : 구명완
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기 및 전자공학과,
서지주기 Reference : p. 114-124
주제 Adaptive signal processing
Markov processes
Learning models (Stochastic processes)
Large scale systems
음성 인식 --과학기술용어시소러스
적응 시스템 --과학기술용어시소러스
Markov 과정 --과학기술용어시소러스
학습 모델 --과학기술용어시소러스
적응 훈련 --과학기술용어시소러스
Speech perception
QR CODE qr code