서지주요정보
(A) model of masking as a front-end for the robust speech recognition = 잡음 둔감한 음성 인식을 위한 마스킹 모델
서명 / 저자 (A) model of masking as a front-end for the robust speech recognition = 잡음 둔감한 음성 인식을 위한 마스킹 모델 / Ki-Young Park.
발행사항 [대전 : 한국과학기술원, 2003].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8014761

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 03059

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Nowadays automatic speech recognition (ASR) is emerging as one of the most promising technologies in near future. One of key challenges in ASR research is the sensitivity of ASR systems to the acoustic interferences like noise and reverberation. In this dissertation, the masking effect which is observed in human auditory perception, is utilized to make noise robust ASR systems. Masking is the process by which the threshold of audibility for one sound is raised by the presence of another sounds, and it is believed to enhance hearing resolution by cutting off redundant signals. The biological evidences for two kinds of masking, frequency masking and temporal masking, are exploited to model the masking effects and both types of masking are implemented with the conventional speech recognition systems. For further improvements of performance, the engineering approaches are introduced with the frequency and time domain filters. Frequency masking is modeled by the lateral inhibition in frequency domain and temporal masking by the unilateral inhibition in time domain. The parameters for the filters which determine the amount and range of inhibition, are searched on the basis of recognition performance with isolated-word recognition tasks. The proposed models are incorporated with the conventional feature extraction methods, including Mel-frequency cepstral coefficients (MFCC) model and zero-crossing peak-amplitude (ZCPA) model. MFCC model is well cooperated with the proposed model of frequency masking and ZCPA model has the built-in property of frequency masking. Temporal masking is applied to both model in the same way. The recognition performance with the proposed model of masking shows superior performance and it is also computationally efficient. For further improvement of performance, two additional methods are used with the proposed model. The spectral subtraction, which is conventional method widely used, shows the much more improvement when used with the proposed frequency masking model. Secondly the binaural signal processing, which uses two microphones to utilize the information in input signal maximally is implemented. By utilizing the coherence between the signals in both channels, the simulation shows, the model is robust to the real-world noises even when the information on noise sources are given in advance and when speeches are contaminated by room reverberation.

본 논문은 사람의 청각기관에서 관찰되는 마스킹 현상을 공학적으로 응용하여 잡음에 강인한 특징 벡터를 추출하는 방법에 관한 것이다. 마스킹 현상은 심리음향학에서 오랫동안 연구되어온 주제로, 여러개의 음원이 동시에 존재할 때, 다른 신호에 의하여 한 신호가 들리지 않게 되는 현상을 말한다. 이는 동시에 존재하는 서로 다른 주파수의 신호 간에 이루어지기도 하며, 또한 시간적으로 앞선 신호에 의하여 이후 신호의 감지가 억제되기도 한다. 전자의 경우 주파수 마스킹, 후자의 경우 시간 마스킹이라고 한다. 주파수 마스킹은 비슷한 주파수의 두 개의 신호가 동시에 존재할 때 일어나는 현상으로 각 기관의 주파수 분해능의 한계에 의한 결과로 볼 수 있다.주파수 마스킹의 생리학적 원인으로는 여러가지 이론들이 연구되고 있으며 본 논문에서는 와우각 내의 기저막 간의 상호 억제 작용에 기인하는 것으로 가정하고 이를 주파수 축에서의 양방향 상호 억제 필터로 모델링하였다. 시간 마스킹은 이전의 자극에 의하여 발화된 신경 세포들이 다음 자극에 대하여 정상적인 반응을 보이지 못함으로써 일어나는 메카니즘으로 가정하여, 주파수 마스킹과 동일한 방법으로 모델링 되었다. 시간 마스킹은 사람이 인지하는 비선형 주파수 영역에서의 비선형 함수를 거친 주파수 대역별 에너지 간의 단방향 억제로 구현되었으며, 이는 실제로 시간 마스킹이 일어나는 것으로 알려진 신경세포의 발화를 모델링한 영역이다. 이러한 모델에서 가장 중요한 문제는 사용된 필터를 결정하는 변수들을 정하는 문제이다. 본 논문에서는 심리 음향학에서 측정된 데이터를 바탕으로 하여, 공학적으로 difference of Gaussians 함수 형태의 필터를 제안하고, 인식 성능이 최대가 되도록 필터를 변형하여 최적의 필터를 찾았다. 찾아진 필터는 각각 주파수 영역 및 시간 영역에서의 대역통과 필터의 모양을 가지며 이는 음성 신호에서 인식에 필요한 성분은 일정한 범위 내의 비율로 변화하는 신호 성분임을 보여주는 것으로 기존의 연구와 유사한 결론을 도출할 수 있다. 제안된 모델을 기존의 특징 추출 방법인 MFCC 및 ZCPA 방법과 결합하여, 기존의 방법보다 더 잡음에 강인한 특징 벡터를 얻을 수 있었다. MFCC 특징 추출 방법은 현재 음성 인식 시스템에서 가장 널리 쓰이는 특징 벡터로 푸리에 변환을 이용하여 신호의 주파수 성분을 계산하며, 이 영역에서 주파수 마스킹을 적용함으로써 기존의 모델에서 추가적인 계산량의 부담없이 마스킹을 구현할 수 있으며, 이러한 모델은 잡음 환경에서 우수한 인식 성능을 보인다. 또한 비선형 함수를 거친 신호 출력에 대하여 시간 마스킹을 적용하여 인식 성능의 향상을 보였으며 주파수 마스킹과 시간 마스킹을 순차적으로 적용함으로써 두가지 마스킹을 동시에 적용한 특징 벡터를 제안하였다. ZCPA 모델은 영점 검출에 의하여 주파수 정보를 추출해내는 방법으로 이러한 과정에서 주파수 마스킹 효과가 내재되어있음을 수식으로 분석하고 이를 실험적으로 확인하였다. 또한 MFCC 모델과 동일한 방법으로 시간 마스킹을 적용하였으며 동일한 형태의 대역통과 필터를 이용하여 기존 모델보다 우수한 인식 성능을 얻을 수 있었다. 제안된 알고리즘을 검증하기 위하여 다양한 종류의 잡음과 음성을 이용한 고립단어 음성인식 실험이 수행되었으며, 모의 실험 결과 제안된 방법은 약간의 추가적인 계산량만으로도 다양한 조건에서 기존의 방법에 비하여 우수한 성능을 보였다. 또한 제안된 방법이 더 좋은 효과를 내기 위하여 기존에 사용되는 방법들과의 결합이 시도되었다. 먼저 에너지 차감 (spectral subtraction) 방법은 일정 대역에 모여있는 잡음 성분을 미리 차감함으로써 제안된 주파수 마스킹의 방법이 보다 효과적으로 작동할 수 있도록 하였다. 두번째로 두 개의 마이크를 사용한 양귀 모델은 제한조건이 보다 완화된 환경에서도 큰 인식 성능의 향상을 가져왔으며 제안된 마스킹 모델과 결합되었을 경우 잡음 환경에서 우수한 인식 성능을 얻을 수 있었다. 양귀 모델의 경우, 가상의 음성 및 잡음 신호원의 실내에서의 반향을 모델링한 환경에서 인식 실험을 하였으며, 이 경우에도 우수한 인식 성능을 보임을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 03059
형태사항 viii, 90 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박기영
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
수록잡지명 : "An engineering model of masking for the noise-robust speech recognition". Neurocomputing, v.52-54, pp.615-620(2003)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 85-90
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서