서지주요정보
Performance improvement of speech recognition using segmental information in speech signal = 음성 신호의 부분 정보를 이용한 음성인식 성능 향상
서명 / 저자 Performance improvement of speech recognition using segmental information in speech signal = 음성 신호의 부분 정보를 이용한 음성인식 성능 향상 / Hoi-Rin Kim.
발행사항 [대전 : 한국과학기술원, 1992].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8002489

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 92007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, we propose several methods to improve recognition accuracy of a hidden Markov model(HMM)-based speech recognition system by using segmental information of speech signal. As the segmental information, we use the HMM state segments which possess common stochastic characteristics of speech signal. Using the segmental information, we propose a modified corrective training algorithm which could improve the discrimination ability of HMMs. Then a new HMM parameter estimation algorithm and a new post-processor are proposed to reduce training and recognition time as well as to improve recognition accuracy. In order to obtain benchmark performances of the proposed algorithms, we implemented two baseline speech recognition systems based on phoneme-like units: one is a speaker-dependent system for 100 phonetically-balanced Korean words and the other is a speaker-independent system for 75 phonetically-balanced Korean words. First, we present a modified corrective training algorithm using HMM state segment information. The modified corrective training method corrects the HMM parameters using the segmental k-means algorithm instead of the forward-backward algorithm used in the conventional corrective training method. It is motivated from the fact that the segmental k-means algorithm has more emphasis on the model state segment information. Applying this method to the speaker-dependent baseline system, we observe that the proposed method results in higher recognition accuracy than the conventional method. That is, the phoneme and word, recognition accuracies in the conventional method are 72.5% and 89%, respectively, and those in the proposed method are 74.9% and 93%, respectively. Also, the proposed method requires much less computation time than the conventional method in training process. Second, a fuzzy segmental k-means(FSKM) algorithm for the HMM parameter re-estimation is proposed. A fuzzy vector quantization(FVQ)-based HMM (FVQ/HMM) scheme requires less training data than a vector quantization (VQ)-based HMM(VQ/HMM) scheme. However, since the FVQ/HMM scheme estimates the HMM parameters by using the forward-backward algorithm, much computation time is required in training process. On the other hand, the proposed re-estimation method using the FSKM algorithm requires much less computation time than the FVQ/HMM scheme, and also utilizes the state segment information. Furthermore, the FSKM algorithm can be simplified by limiting the codewords in calculating observation likelihoods without lowering the recognition performance. The error rate of the speaker-independent baseline system is reduced up to 15% when the HMM parameters are reestimated by the FSKM4 method which uses top 4 candidate codewords and smoothed by the fuzzy method. Finally, a post-processor using FVQ is proposed. The recognition algorithm using the FVQ post-processor has much less computation time compared to the FVQ/HMM recognition algorithm. The computation time is reduced by the following three techniques. First, the post-processor uses the most likely state sequence previously obtained by the Viterbi algorithm. Hence, it does not need to search the optimal state sequence. Secondly, the post-processor re-calculates the likelihoods for only a few candidate words obtained by the Viterbi scorer. Lastly, the observation probability for an input feature vector in each state is obtained with a few candidate codewords most closely matched to the input feature vector. The error rate of the speaker-independent baseline system is reduced up to 27% when the HMM parameters are re-estimated by the FSKM16 method which uses top 16 candidate codewords, smoothed by the floor method, and recognized for top 2 candidate words and top 2 candidate codewords by the FVQ post-processor.

본 논문의 목적은 음성 신호의 분절단위 정보를 이용하여 HMM 음성인식 시스템의 인식 성능을 개선하는 것이다. 이러한 분절단위 정보로써 균일한 통계적 특성을 가지고 어떤 HMM state 에 해당하는 음성부분을 이용한다. 잉 정보를 이용하여 HMM의 변별적 능력을 개선하는 수정된 정정 훈련 기법을 제안한다. 또한 훈련에 소요되는 시간과 인식에 소요되는 시간을 줄이면서도 인식률을 향상시킬 수 있는 새로운 HMM parameter 추정 방법과 새로운 후처리기를 제안한다. 기존의 알고리즘들과 제안된 알고리즘들의 비교평가를 위하여 음소를 기준모델로 사용하는 두 개의 기본 시스템들을 구현하였다. 하나는 100개의 한국어 단어에 대한 화자종속 인식 시스템이고, 다른 하나는 또 다른 75개 단어에 대한 화자독립 인식 시스템이다. 첫째로, HMM state에 해당되는 음성 부분 정보를 이용하는 수정된 정정 훈련 기법을 소개한다. 이 기법은 HMM parameter 교정시에 기존의 정정 훈련 기법에서 사용하는 forward-backward 알고리즘 대신에 segmental k-means 알고리즘을 적용하는 것이다. 이 방법은 segmental k-means 알고리즘이 HMM state 에 해당되는 음성부분을 강조한다는 데 착안한 것이다. 화자종속 인식 시스템에 적용한 결과, 기존의 정정 훈련 기법이 72.5%의 음소 인식률과 89%의 단어 인식률을 보인 반면 제안된 기법은 74.9%의 음소 인식률과 93%의 단어 인식률을 보여 주었다. 또한 제안된 방법은 기존의 방법에 비하여 훈련 과정에서 훨씬 더 적은 계산량을 필요로 하였다. 두번째로, HMM parameter 추정을 위한 퍼지 segmental k-means 알고리즘을 제안하였다. 기존의 FVQ/HMM 시스템은 VQ/HMM 시스템에 비하여 적은 양의 훈련 데이타를 가지고도 일정 수준의 인식 성능을 보여 줄 수 있는 반면, forward-backward 알고리즘을 사용하므로써 많은 계산량을 필요로 한다. 제안된 퍼지 segmental k-means 알고리즘은 기존 시스템에 비하여 훨씬 적은 계산량을 필요로 하며, state 에 해당되는 음성 부분의 정보를 이용하므로써 인식 성능을 개선시킬 수 있다. 더우기 이 방법은 어떤 입력 벡터의 관찰 확률을 계산하는 데 있어서 후보 codeword를 제안하므로써 계산량을 더욱 줄일 수 있다. 이 방법을 적용하므로써 화자독립 시스템에서의 오인식률을 15%까지 줄일 수 있었다. 마지막으로, FVQ를 이용한 후처리기를 제안하였다. 이 FVQ 후처리기는 기존의 FVQ/HMM 인식 알고리즘에 비하여 훨씬 적은 인식 시간을 필요로 한다. 이 인식시간의 감축은 다음의 세 가지 기법으로 구현된다. 첫째로, 이 후처리기는 기존의 Viterbi 알고리즘에 의해 얻어진 최적의 state sequence 정보를 그대로 이용하므로써 최적의 state sequence 를 다시 추적할 필요가 없다. 두번째로, 이 후처리기는 Viterbi 알고리즘에 의해 얻어진 후보 단어들 중 단지 몇 개의 단어에 대해서만 likelihood 를 다시 계산한다. 마지막으로, 각 state 에서의 어떤 입력 특징 벡터에 대한 관찰 확률은 그 입력 벡터에 대한 관찰 확률은 그 입력 벡터에 거리상으로 가까운 몇 개의 후보 codeword 를 가지고 계산된다. 이 방법을 적용하므로써 화자독립 시스템에서의 오인식률을 27%까지 줄일 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 92007
형태사항 x, 105 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : Speech data corpus
저자명의 한글표기 : 김회린
지도교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 이황수
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 95-103
주제 Markov processes.
Fuzzy algorithms.
Phonetics.
음성 인식. --과학기술용어시소러스
퍼지 집합. --과학기술용어시소러스
Markov 과정. --과학기술용어시소러스
음성 신호. --과학기술용어시소러스
교육 훈련. --과학기술용어시소러스
Speech perception.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서