서지주요정보
Statistical feature compensation and normalization for speech recognition in noisy environments = 잡음환경에서의 음성인식을 위한 통계적 특징 보상 및 정규화
서명 / 저자 Statistical feature compensation and normalization for speech recognition in noisy environments = 잡음환경에서의 음성인식을 위한 통계적 특징 보상 및 정규화 / Yong-Ho Suk.
발행사항 [대전 : 한국과학기술원, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8010622

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 00017

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The statistical mismatch of the speech feature between the training environment and the testing environment results in performance degradation of cepstrum based speech recognition system. In this dissertation work, we propose a new feature compensation method and two novel feature normalization algorithms based on statistical methods. When speech signals are contaminated by additive noise, the statistical properties of a speech feature vector vary according to the types of noise and signal-to-noise ratio (SNR) levels. The mutivaRiate-gAussian-based cepsTral normaliZation (RATZ) is one of the best known EM-based feature compensation method. However, the noisy model of the RATZ only represents the mean shift of feature vector. We propose a new noisy model for the RATZ which represents the variance deviation, as well as the mean shift. For the feature normalization algorithm, conventional methods only normalize the mean and/or variance of the cepstrum features. However, deviations of higher order moments also exist in noisy speech features. In order to fully normalize the variations of the statistical properties under noisy conditions, all the moments or the probability density functions (pdf) must be normalized. As the first step to full normalization, we propose cepstrum third-order normalization (CTN) method, which normalizes the third-order moment of the cepstrum as well as mean and variance. Moreover, we propose cepstrum pdf normalization (CPN) method, which fully normalizes the statistical properties. In order to consider various densities, the generalized Gaussian distribution (GGD) is used as the target pdf. A table lookup method is also used to alleviate the computational load of the CPN. From the speaker-independent word recognition experiments, we show that the propose methods give improved performance compared with that of the conventional methods, especially in heavy noise environments.

학습환경과 인식환경간의 통계적성질 불일치는 캡스트럼기반의 음성인식 시스템의 성능저하를 일으킨다. 본 연구에서는 통계적 방식을 기초로 한 새로운 특징 보상 방법과 더불어 2가지의 특징 정규화 방법을 제안한다. 음성신호에 부가잡음이 첨가되면 음성 특징 벡터의 통계적 성질은 잡음의 종류와 신호 대 잡음 비(SNR)에 따라 변화한다. RATZ (mutivaRiate-gAussian-based cepsTral normaliZation)는 대표적인 EM 기반의 특징 보상 방법이다. 그러나 RATZ의 잡음 모델은 특징 벡터의 평균 변위만을 나타낸다. 본 연구에서는 RATZ를 위한 새로운 잡음 모델을 제안한다. 본 모델은 평균 변위와 더불어 분산 변위까지 나타내게 된다. 특징 정규화 방법의 경우, 기존의 방법은 평균, 분산을 정규화하게 되나 잡음섞인 음성 특징의 경우 고차 moment의 변위 역시 존재하게 된다. 잡음 환경에서의 통계적 성질 변이를 완전히 정규화하기 위해서는 모든 차수의 moment 또는 확율 분포 함수 (pdf) 를 정규화해야 한다. 이러한 완전 정규화를 위한 첫 단계로서, 본 연구에서는 캡스트럼 3차 moment 정규화 (cepstrum third-order normalization, CTN) 방법을 제안한다. CTN 방법은 캡스트럼의 평균, 분산에 더불어 3차 moment 까지 정규화하게 된다. 또한, 본연구에서는 캡스트럼 확율 분포 함수 정규화 (cepstrum pdf normalization, CPN) 방법을 제안한다. CPN 방법은 캡스트럼의 통계적 성질을 완전 정규화하게 된다. 여러가지 분포를 고려하기 위해, 일반화 가우시안 분포 (generalized Gaussian distribution, GGD)를 목적 분포로 사용하였다. 또한 CPN의 계산량을 경감시키기 위해 table lookup 방식을 도입하였다. 화자독립 단어인식 실험결과, 제안된 방법들이 기존의 방법보다 좋은 성능을 보임을 알 수 있으며 잡음 정도가 커짐에 따라 성능 향상이 두드러짐을 알 수 있다.

서지기타정보

서지기타정보
청구기호 {DEE 00017
형태사항 104 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : A, Moments and cumulants. - B, The EM algorithm. - C, The solution of a cubic equation
저자명의 한글표기 : 석용호
지도교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 이황수
수록잡지명 : "Cepstrum third order normalization method for noisy speech recognition". Electronics letters, vol.35 , no.7, pp. 527-528 (1999)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 99-104
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서