서지주요정보
Study on cochlear model and speech recognition system based on stimulus frequency otoacoustic emission = 자극주파수 이음향방사에 기반한 와우각 모델 및 음성인식 시스템에 관한 연구
서명 / 저자 Study on cochlear model and speech recognition system based on stimulus frequency otoacoustic emission = 자극주파수 이음향방사에 기반한 와우각 모델 및 음성인식 시스템에 관한 연구 / Yong-Sun Choi.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019674

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 08006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Automatic speech recognition (ASR) system is one of good solutions in human-machine interface. As machines are getting more complex and harder to operate, easier and more natural operation is required, hence ASR system has been emphasized. However, the conventional ASR system does not have acceptable performance yet in real world. To make a better ASR performance, researchers applied various concepts and philosophies on the system. Among the approaches, one of the most powerful ways is to model human hearing system and apply it to ASR core part because none of existing ASR system ever reached the recognition rate of human hearing ability, especially in noisy environment. The essential part of human hearing is a cochlea of inner ear. If we model the cochlea activities and find out what plays the main role in the hearing, ASR performance can be enhanced. The matter is how we get the information of the cochlea activity non-invasively and efficiently. One way is to use OtoAcoustic Emission(OAE). Especially, stimulus frequency otoacoustic emissions (SFOAEs) are more proper to investigate cochlea conditions because only one frequency component is used for the generation of SFOAE and we may ignore interactions of several frequency components. The steps for building human-like ASR system may consist of (1) measurements of SFOAEs, (2) building SFOAE generation model with measured data, and (3) constructing feature extraction algorithms based on the cochlear characteristics. Thus, in this study, an efficient method for measuring SFOAEs was developed incorporating (1) stimulus with swept frequency or level and (2) the digital heterodyne analysis. SFOAEs were measured for 550 $\sim$ 1450 Hz and stimulus levels of 32 to 62 dB SPL in 8 normal human adults. The mean level, number of peaks, frequency spacing between peaks, phase change, and energy-weighted group delays of SFOAEs in frequency sweeping experiments and SFOAE input-output (I/O) functions in level sweeping experiments were determined. Then, we simulated salient features of the human SFOAEs with an active cochlear model containing spatially low-pass filtered irregularity in the impedance. An objective fitting procedure yielded an optimal set of model parameters where, with decreasing stimulus level, the amount of cochlear amplification and the base amplitude of the irregularity increased while the spatial low-pass cut-off and the slope of the spatial low-pass filter decreased. The characteristics of the human cochlea were inferred with the model. Additionally, in the model, an SFOAE consisted of a long-delay component originating from irregularity in a traveling-wave peak region and a short-delay component originating from irregularity in regions remote from the peak. As the last part, feature extraction algorithms were developed by modeling human cochlea with the biological phenomena. For speech recognition experiments, a noise-robust front-end for speech recognizer was established and tested with Aurora2 task. The feature extraction algorithms were based on the model of each cochlear part, such as basilar membrane, outer hair cells (OHCs) and inner hair cells (IHCs). Especially, compressions and tone-suppressions of OHCs were modeled by lateral inhibition with different compression coefficients depending on frequency positions and the amount of neighboring frequency components. Spectral subtraction and long-term adaptation were applied before OHC functioning and high-pass filter was constructed as IHC functions which highly depend on time-variation. Proposed features were tested with database and it was verified that the current model has better recognition ability than standard mel-frequency cepstral coefficients (MFCCs ) in noisy conditions. The proposed algorithms might be used as a good front-end for future automatic speech recognition system.

자동화된 음성인식 시스템은 인간과 기계의 인터페이스로써 좋은 해결법이다. 기계들이 점점 더 복잡해지고 조작하기 힘들어짐에 따라, 손쉽고 자연스러운 조작법이 필요하게 되었고 음성인식기의 중요성은 강조되었다. 그러나, 기존의 음성인식기는 아직 실생활에서 만족할만한 성능을 내지 못하고 있다. 보다 나은 음성인식기를 위하여 연구자들은 여러가지 개념들을 시스템에 적용하였고, 그 중 하나의 방법은 인간의 청각 시스템을 모델링하여 음성인식기에 적용하는 방법이다. 현존하는 음성인식기들은 인간의 청각능력보다 성능이 좋지 못하며, 특히 잡음환경에서 더욱 성능이 나빠지기 때문이다. 인간의 청각에서 핵심적인 부분은 내이의 와우각(cochlea)이다. 만약 와우각의 상황을 모델링하고 어떤 부분이 청각에서 중요한 부분을 담당하는지 알아낼 수 있다면 음성인식기의 성능은 향상될 것이다. 그러면 어떻게 와우각의 정보를 비침습적이며 효과적으로 알아낼 수 있는가 하는 것이 중요해지며, 한가지 방법으로 이음향방사(OtoAcoustic Emission)를 들 수 있다. 그 중에서도 자극주파수 이음향방사가 보다 적절한데, 오직 하나의 주파수 성분만이 이음향방사의 생성에 이용되므로 여러 주파수간의 상호작용을 배제할 수 있기 때문이다. 인간을 닮은 음성인식기를 만드는 과정은 (1) 자극주파수 이음향방사의 측정, (2) 특정된 데이터를 이용한 자극주파수 이음향방사의 생성 모델링, (3) 와우각의 특성에 기반한 음성 특징 추출기의 설계로 나눌 수 있다. 그러므로 본 연구에서는 자극주파수 이음향방사를 (1) 연속적인 주파수 또는 레벨의 변화와 (2) 디지탈 헤테로다인 분석법을 이용하여 효율적으로 측정하였다. 자극주파수 이음향방사는 550$\sim$1450 Hz 의 주파수 범위와 32$\sim$62 dB SPL의 레벨에서 측정되었고, 정상적인 청각능력을 가진 성인 8명이 이용되었다. 주파수 변화 실험에서는 자극주파수 이음향방사의 평균 레벨값, 피크의 수, 피크간의 주파수 간격, 위상 변화, 그리고 에너지 가중 그룹딜레이가 측정되었고, 레벨 변화 실험에서는 입출력 함수가 측정되었다. 다음으로, 임피던스(impedance)에서 공간적으로 로패스필터(low-pass filter) 된 이레귤러리티(irregularity)를 가지는 능동 와우각 모델을 이용하여 인간의 자극주파수 이음향방사를 시뮬레이션 하고 특징들을 비교하였다. 객관적인 방식으로 측정된 데이터와 시뮬레이션 된 데이터의 값을 맞추었고, 최적화 된 파라미터들을 얻을 수 있었다. 그 결과로, 입력의 레벨을 낮출 수록 와우각 증폭량과 이레귤러리티의 기본 크기 값은 감소하였고, 이레귤러리티의 공간적 로패스 필터의 컷오프(cut-off) 주파수와 필터차수는 감소하였다. 인간의 와우각 특성들이 모델로부터 추론되었다. 부가적으로, 모델을 통하여, 자극주파수 이음향방사가 진행파의 피크부근에 존재하는 이레귤러리티로부터 생성되는 롱딜레이(long-delay) 성분과, 피크에서 먼 리모트 구역의 이레귤러리티로부터 생성되는 숏딜레이(short-delay) 성분으로 구성됨을 보였다. 마지막으로, 생물학적인 현상에 의한 인간의 와우각 모델링을 통하여 음성특징추출 알고리즘을 개발하였다. 음성인식 실험을 위해, 잡음에 강인한 인식기의 전처리단이 구성되었고 Aurora2 데이터베이스를 이용하여 테스트 되었다. 음성특징추출 알고리즘은 와우각의 각 파트들, 예를 들면 기저막(basilar membrane), 외섬모세포(outer hair cell), 내섬모세포(inner hair cell)들의 모델에 기반하였다. 특히 외섬모세포의 압축(compression) 및 투톤억제(two-tone suppression)는 주파수 위치와 주변 주파수 성분량에 따라 다른 값을 가지는 압축계수를 이용한 주변억제(lateral inhibition) 방법으로 모델되었다. 주파수 차감법(spectral subtraction)과 롱텀어댑테이션(long-term adaptation)이 외섬포세포 앞단에 부가되었고, 고대역통과 필터가 내섬모세포의 시간변화 반응 모델로 이용되었다. 제안된 음성특징은 데이터베이스를 이용하여 테스트 되었고 현재 모델의 음성인식 성능이 멜-주파수 켑스트럴 계수법(MFCC)보다 잡음환경에서 더 좋은 인식률을 보이는 것이 확인 되었다. 제안된 방법은 앞으로의 자동화된 음성인식 시스템의 전처리단으로 이용될 수 있을 것이다.

서지기타정보

서지기타정보
청구기호 {DBiS 08006
형태사항 viii, 91 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최용선
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
수록잡지정보 : "Stimulus-frequency otoacoustic emission: Measurements in humans and simulations with an active cochlear model". Journal of Acoustical Society of America, v.123 no.5, pp. 2651-2669(2008)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 82-91
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서