서지주요정보
An improvement of stochastic feature extraction for robust speech recognition = 잡음에 강인한 음성인식을 위한 통계적 특징벡터 추출방법 개선
서명 / 저자 An improvement of stochastic feature extraction for robust speech recognition = 잡음에 강인한 음성인식을 위한 통계적 특징벡터 추출방법 개선 / Jin-Seok Ko.
발행사항 [대전 : 한국정보통신대학교, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000389

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS04-01 2004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The speech recognizer running in the real world is considerably influenced by noise. The speech recognizer trained by the clean speech cannot well recognize a speech obtained under the noisy environments because the noise brings mismatches between the training and test environments. Therefore, it is necessary to compensate these mismatches for noise robust speech recognition. In this thesis, we studied about an improvement of stochastic feature extraction based on band-SNR for noise robust speech recognition. We proposed a slightly-modified version of the multi-band spectral subtraction method that adjusts the subtraction level of noise spectrum according to band-SNR, which is noted as M-MSS. Also, we modified the architecture of the stochastic feature extraction method, which is noted as M-SFE. Then, we proposed a stochastic feature extraction method combining two methods above. It is to use advantages of two methods to reliably consider the effect of noise. In the M-MSS, a noise normalization factor was newly introduced in order to play a role in controlling the over-estimation factor depending on band-SNR. As a result, we could more reliably adjust the subtraction level of noise spectrum. We could get a better performance when the spectral subtraction was applied in the power spectrum domain than in the mel-scale domain. Last, we applied the framework of stochastic feature extraction method to the modified multi-band spectral subtraction method. The proposed method, which is denoted as the MMSS-MSFE method, could more effectively compensate variations of noise spectrum by estimating optimal spectrum of clean speech and using the mean and variance of stochastic features. The proposed methods were evaluated on isolated word recognition under various noise environments. When we used only mean of stochastic feature, the average error rates of the M-MSS, M-SFE, MMSS-MSFE method over the ordinary spectral subtraction (SS) method were reduced with 18.6%, 11.0%, and 27.4%, respectively. Also, when we used both the mean and variance of stochastic feature, the average error rates of the M-SFE, MMSS-MSFE method over the SS method were reduced with 15.1% and 33.9%, respectively. From these results, we could conclude that the proposed methods provide good candidates for robust feature extraction in the noisy speech recognition.

실제 환경에서 동작하는 음성인식기는 잡음에 상당한 영향을 받는다. 잡음이 학습 환경과 인식 환경 사이의 불일치를 초래하기 때문에 깨끗한 음성으로 학습된 음성인식기는 잡음 환경 하에서 얻은 음성을 올바르게 인식할 수 없게 된다. 따라서 잡음에 강인한 음성인식기를 만들기 위해서는 이러한 불일치를 보상할 필요가 있다. 본 논문은 잡음에 강인한 음성 인식을 위해서 통계적 특징벡터 추출 방법을 개선하기 위한 방법을 연구하였다. 밴드 SNR에 따라 잡음 스펙트럼의 차감 레벨을 조절하는 멀티 밴드 잡음 차감법을 변형하였고, 통계적 특징벡터 추출 방법의 구조를 바꾸었다. 위의 두 가지 방법의 장점을 이용하기 위해서 밴드 SNR에 근거한 통계적 특징벡터 추출 방법을 제안하였다. 먼저, 잡음 정규화 상수를 이용하여 잡음 스펙트럼의 차감 레벨을 보다 정확하게 조절하였고, 통계적 특징벡터 추출 방법의 구조에서 잡음 차감법을 파워 스펙트럼 영역에 적용함으로써 성능을 개선하였다. 마지막으로, 통계적 특징벡터 추출 방법의 구조에 변형된 멀티밴드 잡음 차감법을 적용하였다. 최적의 깨끗한 음성 스펙트럼을 추정하고 통계적 특징벡터의 평균과 분산을 이용함으로써 잡음 스펙트럼의 변화를 보다 정확하게 보상할 수 있었다. 제안된 방법은 다양한 잡음 환경 하에서 화자독립 고립 단어 인식으로 성능을 평가하였다. 통계적 특징벡터의 평균만을 이용하여 실험을 한 경우, SS 방법에 비하여 M-MSS, M-SFE와 MMSS-MSFE의 평균 에러율은 각각 18.6%, 11.0%와 27.4% 감소하였다. 또한 통계적 특징벡터의 평균과 분산을 모두 이용하여 실험을 한 경우, SS 방법에 비하여 M-SFE와 MMSS-MSFE의 평균 에러율은 각각 15.1%와 33.9% 감소하였다. 위의 결과로부터 제안한 방법이 잡음에 강인한 음성인식을 위한 좋은 방법을 제공함을 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {ICU/MS04-01 2004
형태사항 ix, 45 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 고진석
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p. 41-42
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서