한국과학기술원 도서관

서지주요정보
Auditory modeling for robust speech recognition in noisy environments = 잡음환경에서의 음성인식을 위한 청각모델링
서명 / 저자	Auditory modeling for robust speech recognition in noisy environments = 잡음환경에서의 음성인식을 위한 청각모델링 / Doh-Suk Kim.
발행사항	[대전 : 한국과학기술원, 1997].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8007224

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 97027

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, a computationally efficient auditory model, zero-crossings with peak amplitudes (ZCPA), motivated by mammalian auditory periphery is developed to extract reliable features from speech signals even in noisy conditions. Compared with other auditory models, the developed auditory model is computationally efficient and free from many unknown parameters. The noise-robustness of the developed model is shown analytically as well as experimentally. Speaker-independent isolated word recognition experiments demonstrate that the developed auditory model outperforms other feature extraction methods especially at low signal-to-noise ratio (SNR) conditions corrupted by not only white Gaussian noise but also several real-world noises. Improvements in the recognition rates are more eminent at very low SNR conditions. Detail frequency responses of the filterbank and microphone gains are not critical. Both spectral and cepstral representations of the model outputs are considered, and the cepstral representation shows improved recognition accuracy with less number of coefficients than the spectral representation. Also, several different lengths of time have been tried to obtain good time-derivative features of the developed auditory model.

대개의 음성인식 시스템은 실제로 사용될 환경이 학습 환경과 달라지게 되면 그 성능이 저하되며, 이러한 환경의 불일치의 한 요인으로 주변의 잡음을 들 수 있다. 음성인식 시스템이 사용될 수 있는 환경에는 여러 가지 잡음이 존재하게 되며, 음성인식의 실용화를 위해서는 이러한 여러 잡음 환경에서도 인식 성능이 크게 저하되지 않아야 한다. 잡음 환경에서의 음성인식을 위해 많은 잡음에 둔감한 전처리가 제안되어 왔다. 그 중에서 인간 청각 기관의 기능을 모방하고자 하는 청각 모델링은 기존의 특징 추출 기법에 비해 잡음 환경에서 우수한 성능을 보여주고 있다. 그러나 생물학적 시스템이 복잡한 비선형 다단계 처리로 이루어져 있으며, 지금까지 알려져 있는 생물학적 시스템에 대한 지식으로는 정확한 수학적인 모델을 구성하기 어렵기 때문에, 청각 모델링의 연구는 실험 그 자체에 크게 의존하고 있으며 분석적인 접근이 매우 어려운 단점이 있다. 또한 대부분의 청각 모델은 많은 파라미터를 주의깊게 결정해 주어야 하며, 많은 계산량이 필요하기 때문에 실제의 음성인식 시스템에 널리 사용되지 못하고 있다. 본 논문에서는 잡음의 영향을 덜 받는 특징 추출 방법으로서 인간의 청각 기관에 근거를 둔 청각 모델을 제안하였다. 제안된 청각 모델은 다른 기존의 청각 모델에 비해서 계산량이 적고, 결정해 주어야 할 파라미터수가 적은 장점이 있다. 제안된 청각 모델은 와우각 필터들로 이루어진 필터뱅크와 비선형단으로 구성되어 있다. 와우각 필터들은 와우각 내부에 있는 기저막의 작용을 모델링한 것으로서, 주파수 선택성을 표현한다. 비선형단은 영교차 검출기, 피크 검출기, 비선형 포화 함수로 구성되어 있으며, auditory nerve fiber가 입력 자극 신호에 동기되어 발화하는 것을 모델링한 것이다. 입력 음향 신호의 주파수 정보는 영교차 검출기에 의해서, 세기 정보는 피크 검출기와 비선형 포화 함수에 의해 얻어진다. 레벨 교차 간격이 부가 잡음에 의해 교란되는 양의 분산에 대한 확률적인 분석을 통해 제안된 청각 모델이 잡음에 강한 특성을 보인다는 것을 보였다. 화자 독립 격리 단어 인식 실험 결과 백색 가우시안 잡음 뿐 아니라 여러 실제 잡음 환경에서도 제안된 청각 모델이 기존의 특징 추출 방법에 비해 우수함을 알 수 있었다. 그리고 본 논문에서는 제안된 청각 모델을 하드웨어로 구현함에 있어 고려되어야 할 두 가지 문제를 다루었다. 첫째로, 와우각 필터를 구성하고 있는 infinite impulse response (IIR) 필터를 finite impulse response (FIR) 필터인 해밍 필터로 대치하였다. 비록 본 논문에서 사용된 IIR 필터의 특성이 FIR 필터의 주파수 응답 특성보다 생물학적 특성에 더 가깝지만, 실험 결과 필터의 특성이 neural tuning curve를 그대로 따를 필요가 없다는 것을 알 수 있었다. 둘째로, 마이크 입력의 이득이 변함에 따라 모델의 출력이 영향을 받는 정도에 대한 문제가 다루어 졌으며, 제안된 청각 모델이 마이크 입력의 이득 변화에 둔감함을 알 수 있었다. 또한 보다 나은 인식 성능을 위해서, 기존에 널리 사용되던 방법을 제안된 청각 모델에 적용하였다. 모델 출력의 스펙트럼과 켑스트럼을 비교한 결과, 대부분의 잡음 환경에서 켑스트럼의 경우가 비교적 적은 수의 계수로도 향상된 인식 성능을 나타내었다. 그리고 시간에 따른 변화 성분을 특징 벡터로 사용함에 있어, 청각 모델의 출력을 계산하는 프레임의 길이를 고려함으로써 인식 성능을 보다 더 향상시킬 수 있음을 보였다.

서지기타정보

서지기타정보
청구기호	{DEE 97027
형태사항	viii, 135 p. : 삽화 ; 26 cm
언어	영어
일반주기	저자명의 한글표기 : 김도석 지도교수의 영문표기 : Soo-Young Lee 지도교수의 한글표기 : 이수영
학위논문	학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기	Reference : p. 119-135

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서