서지주요정보
(A) study on the frequency - weighted spectral representations for robust speech recognition = Robust한 음성인식을 위한 주파수 가중 스펙트럼 표현에 관한 연구
서명 / 저자 (A) study on the frequency - weighted spectral representations for robust speech recognition = Robust한 음성인식을 위한 주파수 가중 스펙트럼 표현에 관한 연구 / Ki-Chul Kim.
발행사항 [대전 : 한국과학기술원, 1992].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8002509

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 92001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

To use a speech recognition system in a practical environment, the speech recognizer should have the robustness with respect to unexpected changes in the acoustical environment as well as the inherent variability of the speech signal. In this dissertation we propose and analyze robust spectral representations derived from short-time speech spectrum, which are less sensitive to the environmental changes due to speakers or background noise, and yield smaller number of bits or low dimensional representation without performance degradation. By performing spectral peak enhancement to an all-pole model spectrum and integrating th resultant binarized spectrum with nonlinear frequency scale, several kinds of the frequency-weighted spectral representations were derived. The spectral peak was enhanced by thresholding the second-order spatial derivative of the spectral envelope with respect to frequency to relax the sensitivity of distance measure to the peak amplitude as well as to enhance the spectral peak. The proposed representations are applied to nasal, stop, and isolated digit recognition in clean, white noise added, and band-limited conditions. To evaluate the recognition performance, we used an all-pole model based features, LPC cepstrum and mel-cepstrum, and filter bank based features with Euclidian and several weighted cepstral distance measures in a template-based isolated word recognition system. The proposed features showed improvement in the recognition accuracy for the nasal-vowel syllables in clean, white Gaussian noise added, and band-limited conditions. While the performance of stop-vowel syllable recognition was decreased, the recognition result of isolated digits was competitive compared to the best conventional representation and distance measure, but the robustness and the representation efficiency were improved. Among the frequency-weighted spectral representations, critical-band peak presence vector(CBPPV) which consists of 17 bits representing peak presence in each frequency and shows high accuracy and high-degree of robustness in clean, white noise added, and band-limited conditions, while the mel-cepstrum using root power sum (RPS) distance measure achieving best performance for the male speakers in white noisy conditions shows drastic performance degradation in the recognition of female speech in noise added conditions. We expect a distance measure tuned to the proposed representations may obtain higher recognition accuracy.

음성인식 시스템을 실제 환경에 사용할수 있으려면, 음성신호내에 포함된 변화는 물론 예기치 못한 음향 환경의 변화에도 그 성능이 영향을 받지 않아야 한다. 본 논문에서는 robust한 음성인식을 위해 환경적인 음향변화에 덜 민감한 스펙트럼 표현을 제안하였다. 또한 다양한 인식실험을 통해, 화자의 변화, 백색잡음, 그리고 음성주파수 대역이 제한된 환경 등에서 기존의 특징표현이나 거리척도 방법에 비해 향상된 성능을 확인하였다. 제안된 스펙트럼 표현은 인간의 청각 인지과정의 중요한 특징으로 알려진 스펙트럼피크부분의 강조, 비선형적 주파수 분해능 및 포화성 등을 선형 예측 스펙트럼에 적용하여 유도되었다. 크기가 정규화된 선형예측 스페트럼의 2차 미분함수의 임계값에 따라 이진화된 스펙트럼은 임계대역 (critical-band) 또는 멜 대역 (mel-scale)으로 변환되어 사용되거나, LPC켑스트럼 (cepstrum)이나 멜켑스트럼과 비교하기 위해, 코사인 변형을 통해 켑스트럼계수로 변환되어 사용되었다. 유성음으로 구성된 음절인식실험에서, 제안된 표현은 무잡음, 백색잡음, 대역제한 등의 조건에서 필터뱅크에 의한 특징계수는 물론 LPC켑스트럼이나 멜켑스트럼보다 우수한 성능을 보였으며, 남녀 음성의 차이에 대해서도 켑스트럼을 RPS척도에 의해 비교한 경우보다 안정된 성능을 나타냈다. 파열음 인식에서는 제안된 표현의 성능이 저하되었으나, 숫자음 인식에서는 RPS척도의 켑스트럼과 견줄만한 성능을 보였으며 그 안정성은 증대되었다. 또한 제안된 스펙트럼 표현은 기존의 특징계수보다 훨씬 더 압축된 표현이 가능하여 거리계산량이 증가할수록 유리하다.

서지기타정보

서지기타정보
청구기호 {DCS 92001
형태사항 [x], 144 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김기철
지도교수의 영문표기 : Jung-Wan Cho
지도교수의 한글표기 : 조정완
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 121-138
주제 Voice frequency.
spectral analysis (Phonetics)
음성 인식. --과학기술용어시소러스
Speech perception.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서