서지주요정보
Noise robust speech recognition using kernel-based top-down selective attention = 커널 기반 하향식 주의집중 모델을 이용한 잡음에 강인한 음성인식
서명 / 저자 Noise robust speech recognition using kernel-based top-down selective attention = 커널 기반 하향식 주의집중 모델을 이용한 잡음에 강인한 음성인식 / Chang-Hoon Lee.
발행사항 [대전 : 한국과학기술원, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8017681

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 06054

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A top-down selective attention model which is brought from psychological researches is proposed to recognize isolated word in noisy environments. This model is applied to a hidden Markov model (HMM) classifier which is widely used for automatic speech recognition. An attention filter is introduced in the output of the Mel-filterbank, whose shapes are similar to cochlear filterbank where human attention might be processed. The attention filter is adapted by changing its gain in order to maximize the log likelihood of an attended testing input speech. However, while the log likelihood of the attended input to the selected model increases, any input signal can be attended to any model, then, the attention process produces over-fitted attended data. A low-complexity constraint was proposed to prevent the attention filter from over-fitting. The first method utilizes bilinear kernels which map attention filter to the lower resolution subspace to reduce the complexity of the attention filter effectively. The experiments were done with different sizes of grid with different level of white Gaussian noise. The recognition results are improved. The false recognition rates are 41% and 54% with 20dB SNR and 15dB SNR, respectively. However, the attention filter with bilinear kernels is restricted to model attention in some cases since the peak values in attention filter can be oriented at the grid position. So the model have to have the mechanism to find proper center position and width of the receptive field. Another candidate to reduce the complexity of an attention filter utilizes Gaussian kernels which are adapted not only weights but also the position of the center and the width of the receptive field. The attention filter with Gaussian kernel is adapted by gradient methods. The false recognition rates of this attention filter are 36% and 46% decrease in 20dB SNR and 15dB SNR, respectively. Although The bilinear model shows better performance in the view point of the rate to decrease, both model dramatically decreases false recognition rates. Confidence measure to determine the relative importance between pre-attended input and attended input is calculated. The weight factor $\gamma$ is estimated from the input data SNR estimation. The SNR of input data is estimated by spectral subtraction and the recognition result with this estimated $\gamma$ shows better results than before. In addition, the distortion measure was introduced as a normalized distance in the MFCC domain. The measure has an important role with low constraints. However it does not show any benefit with high constraints because the distance is bounded in constraints. Out-of-vocabulary rejection performance is also tested and demonstrates the superiority of the proposed algorithm. In this thesis, we proposes the methodology to adapt attention filters with constraints. The model reduces the risk to be over-fitted and without compensation of channels shows great improvement in recognition rates.

본 논문은 선택적 주의집중 모델을 통해서 잡음 하 음성인식 성능의 향상을 그 목표로 한다. 선택적 주의집중이란 여러 입력 자극 중에서 원하는 입력만 받아들이는 능력으로써, 사람은 이 선택적 주의집중 기제를 통하여 제한된 자원으로 보다 더 효율적인 정보처리가 가능해진다. 칵테일 파티와 같은 복잡한 환경에서도 인간이 원하는 소리를 들을 수 있는 능력을 보이는 것은 바로 이 선택적 주의집중의 역할 때문이다. 따라서, 본 논문에서는 선택적 주의집중을 도입하여, 잡음에 강인한 음성 인식기를 고안하였다. 하향식 주의집중을 HMM 인식기와 MFCC 특징에 적용하기 위하여, Mel-Filterbank의 출력단에 주의집중 필터를 고안하였다. 이 주의집중 필터는 필터뱅크의 각 밴드별 파워에 적절한 가중치를 곱함으로써, 각 밴드의 파워를 감소시키거나 증폭시키는 효과를 갖는다. 이 주의집중 필터의 학습은 선택된 모델의 log-likelihood를 최대화 시키는 방향으로 일어난다. 하향식 선택적 주의집중 모델은 인식기에 새로운 패턴이 입력되었을 때, 이미 학습된 지식을 이용하여, 이 새로운 패턴을 이미 학습된 패턴과 유사한 방향으로 적응시켜 가는 과정이다. 선택적 주의집중을 사용하여 음성인식을 하는 과정은 1. 트레이닝 데이터를 사용하여 인식기를 학습한다. 2. 새로운 패턴이 입력되었을 때, 출력의 likelihood가 가장 높은 몇 개의 클래스에 대해서: 2-1. 그 클래스의 모델로 주의집중 한다. 2-2. 주의 집중된 패턴을 사용하여 새로운 likelihood를 계산한다. 3. 더 이상 likelihood의 변화가 없을 때까지 학습 한 후, 4. Confidence Measure가 최대가 되는 클래스로 인식한다. 주어진 입력 데이터에 선택된 모델로 하향식 주의집중을 적용하면, 입력 패턴은 출력 likelihood가 증가하는 방향으로 학습된다. 그러나, 이때 주의 집중된 입력 패턴은 over-training되어 원래 입력 값과 매우 차이가 나는 패턴으로까지 학습될 가능성이 존재한다. 이 문제를 해결하기 위해서 본 논문에서는 bilinear kernel을 사용하여 낮은 해상도를 갖는 공간에 주의집중 필터를 사상하였다. 이 때, 주의집중 필터는 kernel간의 간격만큼 해상도가 낮아짐으로써, 학습되는 필터의 자유도가 낮아짐으로써, 주의집중 필터가 과도학습 되는 현상을 방지할 수 있다. 이 방식으로 커널을 학습하였을 때, 음성인식 결과는 20dB에서 41%, 15dB에서 54%의 오 인식률의 향상을 보여주었으며, 적절한 크기 이상의 kernel 간격이 보장된다면, 인식률은 kernel 간격에 상관없이 향상 되는 것을 볼 수 있다. 하지만, bilinear kernel은 주의집중 필터의 피크의 위치가 각 그리드 위치에 의해서 정해질 수밖에 없으므로, 원하는 주의집중 필터의 모양을 모델링 하지 못할 가능성이 존재한다. 따라서, 적절한 영역을 가지면서 중심의 위치가 바뀔 수 있는 Gaussian kernel을 사용한 주의집중 필터를 제안하였다. 6개의 Gaussian kernel을 사용하여 인식 실험을 수행하였으며, 이 때, 오 인식률은 20dB에서 36%, 15dB에서 46% 감소하였다. Confidence Measure로는 입력 패턴의 log-likelihood, 주의 집중된 입력 패턴의 log-likelihood 그리고, 주의집중 과정을 통한 패턴의 왜곡을 사용하였다. 결국 우리가 원하는 주의집중 모델을 통한 인식 결과는, 초기 입력 벡터의 log-likelihood가 높은 패턴, 주의집중된 패턴의 log-likelihood가 높은 패턴, 그리고 초기의 입력 벡터와 주의집중된 입력벡터 사이의 거리가 가장 가까운 패턴, 이 세 가지가 높은 패턴이 선택된 모델에 잘 들어맞는 패턴이라 볼 수 있다. 그런데, bilinear kernel에 의해 제한되는 경우에는 입력 패턴이 주의집중을 통하여 과도하게 변화할 수 없으므로, kernel에 의해 제한조건이 증가하는 경우에는 패턴의 왜곡을 통한 인식성능의 향상을 기대할 수 없다. 하지만, 입력의 제한조건이 매우 작은 경우에는 패턴의 왜곡이 중요한 정보를 제공하여주며, 그 결과 베이스라인 이상의 인식 성능을 보이게 된다. 본 논문에서는 이상과 같은 실험들을 통하여, 본 논문에서 제안한 제한 조건들을 통하여, 주의집중 모델이 과도 학습되는 위험을 피하고, 채널의 보상이나 노이즈의 예측 없이 음성 인식률을 향상 시킬 수 있는 방법론을 제시하였다.

서지기타정보

서지기타정보
청구기호 {DEE 06054
형태사항 x, 83 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이창훈
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 78-83
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서