서지주요정보
강인한 음성 인식을 위한 음향 채널 보상 알고리즘 = Acoustic channel compensation for robust speech recognition
서명 / 저자 강인한 음성 인식을 위한 음향 채널 보상 알고리즘 = Acoustic channel compensation for robust speech recognition / 정소영.
저자명 정소영 ; Jeong, So-Young
발행사항 [대전 : 한국과학기술원, 2003].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8014412

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 03020

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Acoustic channel mismatches between training and testing environments result in performance degradation in automatic speech recognition. Although time-domain deconvolution filters may be developed, they require extensive computation, especially for acoustic channels with long time delays. Therefore, many researchers had come up with filtering approaches at feature domain. Effects of microphones and telecommunication channels can be modeled with impulse responses with short time delays and add bias terms to clean speech features in the log-spectrum domain, which may be compensated by spectral mean subtraction. However, room acoustics usually come with longer time delays, which introduce interactions among several time frames. Highpass or bandpass filters at modulation-frequency domain had been developed by heuristics or based on information theory. In this dissertation, we analyzed the effects of two kinds of acoustic channel, i.e., microphone channel with short time delay and room reverberation channel with longer time delays, on speech features, and came up with a new filtering method at each feature domain. It is assumed that there exist some measured data for clean speeches and corresponding distorted speeches with the acoustic environment of interests. Compensation filters are adaptively trained to transform the distorted features into clean speech features. At the training phase of the compensation filters both the clean speeches and distorted speeches are fed to a same feature extractor, and the filter coefficients are adaptively adjusted to minimize the mean-square-error(MSE). At the test phase the compensation filters transform the distorted features into clean speech features for better recognition performance. Effect of microphone channel can be represented as a linear spectral distortion for each speech frame at each feature domain, i.e., power spectrum, filter bank spectrum, mel-frequency log spectrum, cepstrum feature. Hence linear diagonal compensation at each speech frame can be effectively used for reducing microphone mismatches, while for particularly low-quality microphone speeches, interactions between spectral components and/or nonlinear distortions should be considered. Microphone compensation experiments performed on HTIMIT database showed improvements on phoneme recognition about 10 percents with simple diagonal mapping in the log-spectrum domain. Analysis on the reverberation channel effects on speech features revealed that acoustic channel distorts each spectral band separately, which are modeled as independent convolutive filters along time frames. Therefore, to compensate for long channel distortions, one need to define deconvolutive filters for each spectral band. To evaluate performance of the proposed convolutive filters, we conducted isolated word recognition(IWR) experiment using speech signal distorted by simulated channels and real reveberation environments. Simulated acoustic channels with three different reverberation time, i.e., 170 msec, 350 msec, and 700 msec, are generated by Allen`s image method. These channels are convolved with clean speech database in the time domain, which results in channel-distorted speech. Also clean speech database is re-recorded in the real reveberation environments with different acoustic conditions. We had tested the temporal convolutive filters at complex spectrum, spectral power, mel-frequency spectral power, and log-spectrum domains. Experimental results show that feature transformations at the complex spectrum with log-spectrum error criterion provide best recognition performance. It may come from the fact that the log-spectrum values are most directly connected to the MFCC values and convolutive filters in the complex spectrum are most suitable approximations compared to other speech features. Baseline results show that mismatched channels degrade recognition rates about 20 percents in light reverberation to 35 percents in heavy reverberation. Although the RASTA algorithm with a fixed convolutive filter for all frequency bands provides enhanced recognition rates, the proposed convolutive filters for each complex spectrum with log-spectrum error measure result in much better recognition rates To be more specific, recognition rates with proposed convolutive filters are improved by about 10 percents over RASTA algorithm. The improvements come from added complexity of the convolutive filters with available clean-to-distorted speech training data. It is necessary to investigate sensitivity effects for robust compensation, because trained deconvolutive filters may be deployed in a slightly changed acoustic conditions from filter training. We conducted compensation experiments on the distorted speeches with different reverberation times to show that how sensitive the trained filters are to channel variations.

본 논문에서는 실생활에서의 음성 인식 적용을 어렵게 만드는 요인으로 학습 환경과 인식 환경의 차이에서 오는 음성의 왜곡 현상을 효과적으로 보상할 수 있는 알고리즘을 개발하고, 제안된 알고리즘의 성능을 인식 실험을 통해 기존의 알고리즘들과 비교,평가하여 타당성을 검증한다. 음성의 왜곡을 가져 오는 음향학적 환경으로는 배경 잡음, 화자의 변이, 화자의 발성 상태 변이 및 마이크 변이와 인식하는 장소의 주변 반향 정도등의 차이등 다양하다. 이러한 모든 음향학적 환경을 한꺼번에 고려하는 것은 사실상 불가능하기 때문에, 일반적으로 음성의 왜곡 모델은 가산 배경 잡음과 선형 채널만 고려하여 이를 보상하거나, 이들의 영향을 줄일 수 있는 알고리즘이 집중적으로 개발되어왔다. 음향 채널은 크게 마이크나 전화선과 같이 짧은 임펄스 응답을 갖는 채널과 반향 채널과 같은 긴 임펄스 응답을 갖는 채널로 나눌 수 있다. 음성의 특징 벡터를 왜곡시키는 음향 채널을 보상하는 알고리즘을 개발하기 위해서는 어떤 특징 벡터 공간에서 보상 모델을 적용할 것인가와 어떤 종류의 보상 네트워크를 이용할 것인가가 결정되어야 한다. 이를 위해, 특징 벡터에 미치는 채널의 왜곡 현상을 분석하고, 분석된 왜곡 모델로부터 적절한 보상 모델 및 매개 변수 학습 알고리즘을 세워야 한다. 본 연구를 통해서 음향 채널에 의해 생기는 음성 특징 벡터의 왜곡은 짧은 임펄스 응답을 갖는 채널인 경우는 주파수 밴드상에서의 선형 변환으로 나타나고, 긴 임펄스 응답을 갖는 채널의 경우는 시간 프레임상에서의 선형 필터링으로 나타나게 된다는 것을 유도할 수 있다. 마이크 보상 실험을 통해서, 대부분의 마이크에 대해서는 로그 스펙트럼상에서의 대각 행렬 변환으로 인식 성능을 충분히 높일 수 있다. 하지만, 성능이 극히 떨어지는 마이크에 대해서는 로그 스펙트럼상에서 모든 주파수 밴드 성분들이 함께 고려된 선형 변환이나 비선형 변환을 이용해야만 원하는 수준까지의 보상이 가능함을 실험적으로 보일 수 있다. 반향 채널의 보상 알고리즘은 시간 프레임 특징 벡터들사이의 변화량이 크지 않다는 가정하에, 각 주파수 밴드별로 선형 FIR 필터링으로 가능함을 실험적으로 보일 수 있었다. 즉, 특징 영역에 미치는 반향 채널의 영향은 음성의 시간 프레임 벡터들의 변이를 영차 근사 모델로 근사화하면, 각각의 주파수 밴드에 대한 선형 필터링으로 나타난다. 한편, 프레임 벡터 사이를 고차 근사 모델로 근사화 한다면 주파수 밴드 사이의 상관 관계를 고려한 시간 프레임에서의 FIR 필터링을 도입해야 한다. 로그 스펙트럼에서 정의된 오차 함수를 최소화하는 방향으로, 각 특징 영역에서의 선형 변환 모델의 매개 변수를 학습하는 알고리즘이 반향 채널의 영향을 줄여 음성 인식의 성능을 높일 수 있음을 보였다. 실험에서 복소 스펙트럼에서 정의된 선형 모델을 로그 스펙트럼에서 정의된 오차 함수를 최소화하는 방향으로 학습한 경우에 인식 성능을 가장 크게 높일 수 있었다. 이는 복소 스펙트럼에서의 선형 모델이 근사화 오차가 가장 작고, 로그 스펙트럼에서의 오차 함수가 실제 인식기의 성능에 가장 크게 영향을 미치기 때문이다. 본 논문에서 제시한 채널 보상 알고리즘은 미리 음향의 왜곡에 대한 특성을 파악하기 위한 학습자료를 측정하여야 하는 단점이 있으나, 마이크나 사용 환경에 따라 별도로 확습된 변환방법을 가지고 있게 함으로서, 실세계 활용가치가 높다. 그리고, 보상 알고리즘의 민감도에 관한 실험을 통해, 실제 사용시의 반향 환경이 보상 네트워크의 학습 환경과 조금 달라지는 경우에도 인식률 측면에서 큰 차이가 없음을 보였다.

서지기타정보

서지기타정보
청구기호 {DEE 03020
형태사항 x, 86 p. : 삽도 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : So-Young Jeong
지도교수의 한글표기 : 이수영
지도교수의 영문표기 : Soo-Young Lee
수록잡지명 : "Adaptive learning algorithms to incorporate additional functional contraints into neural networks". Neurocomputing, v.35, pp.73-90 (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 참고문헌 : p. 80-86
주제 음향 채널 보상 알고리즘
특징 변환
반향 보상
음성 인식
acoustic channel compensation
feature transformation
channel deconvolution
speech recognition
QR CODE qr code