서지주요정보
Performance improvement of speech recognizers in the presence of additive noise = 부가 잡음이 있는 환경하에서의 음성 인식기의 성능 향상
서명 / 저자 Performance improvement of speech recognizers in the presence of additive noise = 부가 잡음이 있는 환경하에서의 음성 인식기의 성능 향상 / Weon-Gook Chung.
발행사항 [대전 : 한국과학기술원, 1993].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8003431

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 93033

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The problem of speech recognition in noisy environment has attracted the attention of many researchers. A speech recognition system designed to perform well under clean or low noise conditions often shows remarkable degradation in performance when background noise is present. In this dissertation work, we propose several methods to improve recognition accuracy under noisy conditions. The key problem of this dissertation work is the development of a speech recognition system that yields improved recognition performance at low noise conditions without causing degradation in performance at high noise conditions. The effectiveness of the proposed methods has been evaluated for additive white noise and additive colored noise using spectral distance comparison and speaker-independent isolated word recognition experiments. First, we propose a method of estimating autoregressive (AR) parameters in the presence of additive white noise. It is well known that when speech is modeled as an AR process and is contaminated by additive white noise, spectral zeros are introduced into speech spectrum and thus autoregressive moving-average (ARMA) modeling is more appropriate. The estimation problem for ARMA process is basically a nonlinear problem. Fortunately, however, it has been shown that the spectral poles of contaminated ARMA process are identical to those of original AR process. We assume that the introduced spectral zeros are closely related to the spectral poles. Based on this assumption, we estimate the AR parameters for clean speech through appropriate composite modeling of contaminated speech. We first filter contaminated speech by an all-pole filter which is the inverse of the estimated moving-average (MA) filter to cancel out the introduced spectral zeros, and then estimate the AR parameters from the filtered speech. This filtering and estimation procedures alternatively optimized through iterations. The amount of cancelling is adapted according to the estimate of signal-to-noise ratio (SNR). The effectiveness of this algorithm has been evaluated in both synthetic AR signals and real speech signals. For real speech signal, speak-independent isolated word recognition experiments have been performed using the dynamic time warping (DTW) algorithm. Our proposed algorithm shows small bias and variance in estimating the AR parameters under noisy conditions, and yields an improvement in recognition accuracy. Second, we propose distance measures that reduce the effect of noise, so that recognition systems are robust to background noise by using the distance measure. We assume that the effect of noise can be modeled by a finite impulse response (FIR) system in the feature domain, and thus the feature vectors of contaminated speech can be considered as the outputs of the FIR system whose input is the feature vector sequence of corresponding clean speech. The unknown FIR system parameters are obtained using the recursive least squares (RLS) algorithm. We try to equalize the effect of noise in the feature domain using an adaptive filtering technique and to define distance measures in terms of estimation errors. Among several adaptive filter structures, the single channel first order adaptive filter structure yields the best recognition performance and thus allows to make a computationally efficient algorithm. From the speaker-independent isolated word recognition experiments based on DTW, the proposed noise-equalizing distance measures yields improved recognition accuracy at low SNR conditions without causing performance degradation at high SNR conditions for both additive white noise and additive colored noise. Finally, the proposed noise-equalizing distance measure is incorporated into the continuous density hidden Markov model (CDHMM). The noise equalization mechanism is generalized to the multivariate Gaussian probability density function for each state of CDHMM. Since speech signal is represented by a stochastical model in CDHMM, it is not easy to define the input sequence of the noise-equalizing adaptive filter. In order to circumvent this problem, we make the adaptive filtering work cooperatively and interactively with the Viterbi decoding. The Viterbi decoding takes its likelihood from the adaptive filtering, and the adaptive filtering obtains its input sequence from the Viterbi path. The speaker-independent isolated word recognition experiments shows that the proposed algorithm yields improved recognition performance at low SNR conditions and causes no considerable performance degradation at high SNR conditions for both of additive white noise and colored noise.

음성 인식 시스템이 잡음이 있는 환경하에서 운용될 때에는 그 성능이 현저하게 떨어지게 된다. 본 논문의 목적은 잡음이 비교적 적은 환경하에서는 그 성능을 떨어뜨리지 않으면서, 잡음이 많은 환경하에서 음성 인식 시스템의 성능을 향상시키는 데 있다. 이를 위하여 백색 잡음 환경하에서 AR 파라미터를 추정하는 방법과, 잡음에 강한 거리 척도(distance measure)를 제안하였다. 또한 제안된 거리척도를 HMM을 이용한 음성 인식 시스템에 적용시킬 수 있는 방법을 제안하였다. 제안된 알고리즘들의 내용은 다음과 같다. 첫째로, 백색 잡음이 더해지는 환경하에서 AR 파라미터를 반복적으로 추정하는 방법을 제안하였다. 일반적으로, AR 신호로 모델링되는 음성에 백색잡음이 부가될 때에는 스펙트럼 zero가 도입되어 ARMA 모델링이 더 적절하게 된다. 대개 ARMA 신호에 대한 추정은 비선형 문제가 되어 AR 파라미터를 추정하는 데 어려움이 있으나, 이 경우에는 ARMA 신호의 pole이 원래의 AR 신호의 pole과 일치한다는 사실이 알려져 있다. 본 논문에서는 이 사실과 ARMA 신호의 pole과 zero사이의 연관 관계를 이용하여 백색 잡음이 더해지기 전의 음성신호에 대한 AR 파라미터를 반복적으로 추정하였다. 제안된 알고리즘은 합성 AR 신호에 대한 스펙트럼 거리 비교 실험 결과, 비교적 정확히 AR 파라미터를 추정하였다. 또한 제안된 알고리즘을 이용하여 실제 음성 신호의 특징 파라미터를 추출한 후 음성 인식 실험을 한 결과, 잡음이 많이 있는 환경에서 성능의 향상을 가져왔다. 둘째로, 잡음에 강한 거리 척도를 제안하였다. 제안된 알고리즘에서는 잡음의 영향을 특징 파라미터 영역에서 FIR 시스템으로 모델링하고, 미지의 FIR 시스템의 파라미터를 RLS 알고리즘을 이용하여 추정함으로써 잡음의 영향을 줄였다. 즉, 잡음의 영향을 특징 파라미터 영역에서 적응 필터 방식을 이용하여 줄인후, 그 추정 오차를 이용하여 두 음성 신호사이의 거리 척도를 정의하였다. 여러 가지 적응 필터 구조 중 단일 채널 일차 적응 필터를 이용한 거리 척도가 가장 좋은 인식 성능을 보여, 계산량이 적은 알고리즘을 구현할 수 있었다. DTW를 이용한 화자 독립 인식 실험 결과, 제안된 거리 척도는 부가 백색 잡음과 부가 유색(colored) 잡음에 대하여 잡음이 적은 경우에서는 성능을 크게 떨어뜨리지 않으면서, 잡음이 많은 경우에 있어서는 인식 성능의 향상을 보였다. 마지막으로, 제안된 거리 척도를 CDHMM에 적용하는 방법을 제안하였다. 잡음의 영향을 줄이기 위한 적응 필터 방식은 CDHMM의 각 state에 대한 Gaussian 확률 분포 함수에 적용되었다. HMM에서는 음성 신호가 확률적으로 모델링되므로 적응 필터의 입력 신호를 정의하기가 어렵다. 이를 해결하기 위하여, HMM의 인식 알고리즘인 Viterbi 알고리즘을 적응 필터와 연동시켰다. 즉, Viterbi 알고리즘은 적응 필터로 부터 likelihood에 대한 정보를 얻으며, 적응 필터의 입력 신호는 Viterbi 알고리즘의 state 시퀀스 정보로 부터 얻어졌다. 화자 독립 인식 실험 결과, 제안된 알고리즘은 부가 백색 잡음과 부가 유색 잡음에 대하여 잡음이 적은 경우에서는 성능을 크게 떨어뜨리지 않으면서, 잡음이 많은 경우에는 인식 성능의 향상을 보였다.

서지기타정보

서지기타정보
청구기호 {DEE 93033
형태사항 v, 112 p. : 삽화 ; 26 cm
언어 영어
일반주기 Includes appendix
저자명의 한글표기 : 정원국
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 99-110
주제 Speech perception.
Markov processes.
Depth perception.
Electronic noise.
Adaptive filters.
음성 인식. --과학기술용어시소러스
Markov 과정. --과학기술용어시소러스
잡음 특성. --과학기술용어시소러스
성능 분석. --과학기술용어시소러스
부호 거리. --과학기술용어시소러스
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서