서지주요정보
Enhanced cepstral representations and distance measures for speech recognition = 음성인식을 위한 개선된 켑스트럼 표현 및 거리비교에 관한 연구
서명 / 저자 Enhanced cepstral representations and distance measures for speech recognition = 음성인식을 위한 개선된 켑스트럼 표현 및 거리비교에 관한 연구 / Hook-Kook Kim.
발행사항 [대전 : 한국과학기술원, 1994].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8004909

소장위치/청구기호

학술문화관(문화관) 보존서고

DIC 94002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9000911

소장위치/청구기호

서울 학위논문 서가

DIC 94002 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The mismatched condition between training and testing environments of speech recognition severely degrades the performances of most speech recognizers. In this dissertation work, we propose new algorithms related to noise-resistant representations of speech and distance measures. First, we propose new speech analysis algorithm called the spectral envelope linear predictive analysis (SELP). SELP is based on the spectral autocorrelation which is defined as the autocorrelation of discrete quantities of the speech spectrum with the spectral resolution identical to the point of the discrete Fourier transform (DFT) of speech. We prove that the spectral autocorrelation of voiced speech is periodic with a period of the fundamental frequency ($F_0$) and has maximum values at multiples of $F_0$ assuming that its spectral envelope is slowly varying. The spectral envelope is estimated by sampling the speech spectrum at peak points of spectral autocorrelation. Also we can obtain the spectral envelope of unvoiced speech from the observation that its spectral autocorrelation shows periodicity. SELP has the advantage of estimating the spectral envelope without explicit $F_0$ detection and voicing decision. The resultant spectral envelope, whose length is reduced by the factor of about $F_0$, is normalized linearly in frequency to obtain the same frequency resolution over each analysis frame. Then, we obtain nonlinear spectral resolution by transforming the frequency axis of the spectral envelope into a mel-frequency one. The inverse DFT of this spectral envelope yields the estimate of sample autocorrelation of speech. So we can obtain the cepstral coefficients from the sample autocorrelation and call them the spectral envelope cepstral coefficients (SECC). Recognition experiments show that SECC combined with the bandpass lifter yields higher or comparable performance than the conventional representations such as the perceptual linear predictive analysis (PLP), the short-time modified coherence representation (SMC), and the mel-frequency cepstral coefficients (MFCC) for clean speech. Especially, when the signal-to-noise ratio (SNR) of input speech is 10 dB, we can obtain about 10% improvement of recognition accuracy using SECC over the conventional representations. Second, we propose the peak-weighted cepstral lifter (PWL) to obtain the better distance measure for speech recognition and compare its performance with those of the conventional lifters such as the root-power-sums lifter (RPS), the general exponential lifter (GEL), and the bandpass lifter (BPL). PWL is described as an exponential function in the cepstral domain and enhances the spectral peaks of all-pole model spectrum. This results in compensating the bandwidth broadening in noisy environment. The base of the exponential function controls the degree of spectral weighting. In order to find the proper base of PWL, we carry out experiments in view of three criteria: the sensitivity of spectral resonance peaks, the mean of variance ratio of cepstral coefficients, and the speaker-dependent recognition accuracy. The experiments show that the base of PWL between 0.8 and 0.95 yields the superior result over the conventional lifters. It, however, is necessary to generalize PWL so as to automatically decide the suitable base of PWL according to the analysis order and SNR frame-by-frame. The generalized PWL is called the frame-adaptive PWL (FAPWL). We avoid the abrupt change of the degree of spectral weighting by smoothing the base value in the current frame with previous ones. When FAPWL with an interframe smoothing factor of 0.7 is used in speaker-independent digit recognition, the recognition improvements of 4% and 12% can be obtained at SNR's of 20 dB and 30 dB, respectively, compared with other conventional lifters. As another representation of speech, we finally derive the relationship between the cepstrum and the line spectral pair (LSP) frequencies and define a pseudo-cepstral coefficients (PCC) by approximating the relationship. Speakerdependent recognition experiments show that the system employing PCC gives higher recognition performance than LSP when SNR is above 30 dB. Cepstral lifters applied to PCC provide better recognition results for all SNR's, and also give SNR improvement of about 5 dB over both LSP and PCC. Next, the frequency of the pseudo-cepstrum is warped into the mel-frequency and the lifters are applied to these mel-frequency pseudo-cepstral coefficients (MPCC), too. We can observe that MPCC combined with GEL shows the best recognition accuracy. In addition, it is shown that for speaker-independent recognition test the performance of PCC is slightly lower than that of LSP, but PCC combined with one of the lifters increases the recognition performance of about 2%~15% than LSP by varying SNR. Especially, GEL provides the SNR improvement of about 5~10 dB. However, the liftered MPCC's generally degrade the recognition performance of MPCC alone while MPCC always shows higher performance than the mel-scaled LSP frequencies.

음성인식 시스템의 성능은 학습과 인식 환경의 차이에 의해 일반적으로 크게 저하된다. 본 논문에서는 이의 극복 방안으로 켑스트럼에 기초한 음성의 표현방법과 거리척도(distance measure)에 관련된 새로운 알고리즘을 제안하였다. 첫째, 음성의 스펙트럼 포락 선형 예측 분석 (spectral envelope linear predictive analysis) 방법을 제안하였다. 이 방법은 스펙트럼 영역에서 정의된 스펙트럼 자기상관 (spectral autocorrelation)에 기초한다. 우선 유성음의 스펙트럼 자기상관은 그 음성의 기본주파수 ($F_0$)에 주기적이고 $F_0$의 배수마다 최대값을 갖는다는 사실을 증명하였다. 또한 무성음의 스펙트럼 자기상관이 유성음의 경우와 유사하게 어느 정도 주기적으로 최대 값을 갖음을 실험적으로 관찰하였다. 스펙트럼 포락은 스펙트럼 자기상관이 최대값을 갖는 주파수에서 표본화되어 얻어진다. 그러나 각 분석 프레임마다 구한 스펙트럼 포락의 표본수가 다르기 때문에 선형 정규화를 통하여 그 표본수를 일정하게 하였다. 이와 함께 청각의 비선형성을 모델링하기 위해 멜주파수 (mel-frequency)로 변환을 하였다. 결과적인 스펙트럼 포락은 선형 예측 모델로 근사화되며 이로 부터 얻은 켑스트럼 계수(spectral envelope cepstral coefficients: SECC)를 음성 인식 시스템의 입력으로 사용하였다. 인식실험 결과, 잡음이 없을때 SECC는 유사한 기존의 음성 분석 방식인 perceptual linear predictive analysis (PLP), short-time modified coherenece analysis (SMC), melfrequency cepstral coefficient (MFCC)보다 약간 좋은 결과를 보이나, 10 dB의 신호대 잡음비(SNR)를 갖는 음성 신호에 대해서는 10% 이상의 성능 향상을 보여 주었다. 둘째, 거리비교에 관한 연구의 하나로 피크 가중 켑스트럼 향상기 (peak-weighted cepstral lifter: PWL)을 제안하였다. PWL은 음성 스펙트럼의 피크를 가중시켜 잡음에 강하게 하는 특징을 갖으며 지수함수로 표현된다. PWL에서 지수함수의 최적의 밑(base)를 구하기위해, 스펙트럼 피크의 민감도, 켑스트럼 계수의 분산의 평균비, 그리고 인식 실험을 행하였다. 그 결과, 음성을 14차로 분석하였을 경우 최적의 밑은 0.8~0.95에 존재하 며 기존의 root-power-sums lifter (RPS), general exponential lifter (GEL), 그리고 bandpass lifter (BPL)등에 비해 우수한 성능을 보임을 알 수 있었다. 그러나 실제 음성인식 시스템의 적용을 위해서는 음성의 분석 차수나 잡음의 크기에 따라 자동적으로 최적의 PWL을 얻을 수 있는 방안이 필요로 되었다. 이에 프레임 적응 PWL (frame-adaptive PWL:FAPWL)을 제안하였다. 또한 프레임 간의 갑작스런 피크 가중 정도의 변화를 방지하기 위해 프레임간의 평활화 (inter-frame smoothing)를 하였다. 0.7의 평활화율을 갖는 FAPWL은 20 dB와 30 dB SNR에서 기존의 lifter에 비해 각각 4%와 12%의 인식률 향상을 가져왔다. 세째로, 선 스펙트럼 쌍 (line spectrum pair: LSP) 주파수로 부터 의사 켑스트럼 (pseudo-cepstum)표현을 제안하고 이 의사 켑스트럼을 특징벡터를 사용하는 음성 인식시스템의 성능을 평가하였다. 의사 켑스트럼 표현은 LSP와 LPC 켑스트럼 사이의 관계로부터 근사적으로 유도된다. 이때 음성 인식 시스템의 성능을 더욱 향상시키기 위하여 켑스트럼 lifter가 의사 켑스트럼에 적용된다. 또한 멜주파수로의 변환도 행해진다. 인식 실험 결과, GEL이 적용된 멜주파수 의사 켑스트럼이 가장 좋은 성능을 나타내며, LSP에 비해 5~10 dB정도의 SNR의 개선을 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {DIC 94002
형태사항 xvi, 145 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : A, Speech data corpora and recognition systems. - B, Frequency scale transformations. - C, LSP extraction method based on spectral difference function
저자명의 한글표기 : 김홍국
지도교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 이황수
학위논문 학위논문(박사) - 한국과학기술원 : 정보및통신공학과,
서지주기 Reference : p. 129-138
주제 Depth perception.
음성 인식. --과학기술용어시소러스
부호 거리. --과학기술용어시소러스
스펙트럼 분석. --과학기술용어시소러스
Speech perception.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서