서지주요정보
Robust speech recognition under noisy environments using Lombard effect compensation and dynamic characteristic = 롬바드 효과의 보정과 동적특성을 이용한 잡음환경에 강인한 음성인식
서명 / 저자 Robust speech recognition under noisy environments using Lombard effect compensation and dynamic characteristic = 롬바드 효과의 보정과 동적특성을 이용한 잡음환경에 강인한 음성인식 / Sang-Mun Chi.
발행사항 [대전 : 한국과학기술원, 1998].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8009251

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 98018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9005077

소장위치/청구기호

서울 학위논문 서가

DCS 98018 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Although speech recognition systems in artificially constrained conditions have already reached high levels of performance, they degrade dramatically when they are applied in the real world, particularly in noisy environments. In noisy environments human speech productions are influenced by noises (Lombard effect) and speech signals are contaminated in ways which affect the performance of speech recognition systems. This thesis describes a Lombard effect compensation and noise suppression method of improving speech recognition performance in noisy environments. First of all, to become familiar with the characteristics of speech affected by the Lombard effect, several features of Lombard speech were investigated. We found that vocal intensity was varied by the Lombard effect, and that the Lombard effect had a statistically significant influence on energy below 500Hz low-band spectral tilt, and the center of gravity determining the spectral structure of speech. Since speech production variations due to the Lombard effect depends on the intensity of the Lombard effect, we formulated a quantitative measure of the Lombard effect level so as to model it more explicitly. Statistical tests were used to discover those features that represent the Lombard effect. A speech degradation model is proposed in order to characterize the distortions of speech in noise and under the Lombard effect. Variations in formant location, formant bandwidth, pitch, spectral tilt, and energy in each frequency band under the Lombard effect are represented by frequency warping and amplitude scaling of each frequency band. Another Lombard effect, the variation of vocal intensity is modeled by a multiplication term depending on the energy of the input speech. Noise contamination is represented by an additive term in the frequency domain. The distortions of noisy Lombard speech are then canceled out according to the speech degradation model. First, spectral subtraction is used to suppress the noise contained in input noisy Lombard speech. The spectra of input noisy speech are then band-pass filtered to enhance their dynamic characteristics. Second, energy normalization is proposed to normalize vocal intensity. Finally, the proposed measure of the Lombard effect level controls the cepstral transform that estimates the cepstrum of clean speech from that of Lombard speech. These techniques significantly reduced error rates in the recognition of 50 Korean words. Average recognition rates of 46.3% , 75.5% and 87.4% without any compensation were improved to 82.6% , 95.7% and 97.6% with the proposed method at SNR 0, 10 and 20dB, respectively.

조용한 환경이나 잘 조절된 인공적인 환경에서, 현재의 음성인식기는 이미 높은 성능을 나타내고 있지만, 실제환경, 특히, 잡음환경에 적용할 경우에는 크게 인식률이 저하된다. 잡음환경에서 인간의 발성방식은 잡음에 크게 영향을 받아 평소의 발성과는 다른 변이된 음성을 발성하게 되는 롬바드 효과가 나타나고, 잡음이 음성신호에 첨가되므로, 음성인식기의 성능이 크게 저하한다. 본 논문에서는 잡음환경하의 음성인식기의 성능을 향상시키기 위한 롬바드 효과의 보정과 잡음제거 방법을 설명하였다. 우선, 잡음과 롬바드 효과에 의해 영향을 받은 음성의 특성을 관찰하기 위하여, 음성 특징파라미터의 변이를 조사하였다. 조사한 결과에 따르면 음성의 발성강도가 크게 변이하였고, 롬바드 효과는 음성의 스펙트럼 구조를 결정하는 특징파라미터들을 통계적으로 유의성을 가질만큼 변화시킴을 알 수 있었다. 롬바드 효과에 의한 음성의 왜곡은 롬바드 효과의 크기에 종속적이므로, 보다 구체적인 롬바드 효과의 모델링을 위해서 롬바드 효과의 크기를 측정하는 양적인 척도를 개발하는 것이 필요하므로, 통계적인 방법을 사용하여 롬바드 효과를 적절히 표현하는 특징들을 찾았다. 잡음과 롬바드 효과에 의한 음성의 왜곡을 구체화하기 위해서 음성의 왜곡모델을 제안하였다. 제안한 모델은 롬바드 효과에 의한 포만트 위치, 포만트 대역폭, 피치, 스펙트럼 틸트, 각 주파수 대역의 에너지 등을 스펙트럼 함수의 주파수와 주파수 대역의 진폭변이로서 모델화 하였다. 롬바드 효과에 의한 다른 하나의 변이인 발성에너지의 크기변이는 입력음성의 에너지에 종속적인 곱하기항으로 모델화하였다. 잡음의 첨가는 주파수영역에서의 가산적인 항으로 나타내었다. 잡음과 롬바드 효과에 의해 변이된 음성의 왜곡은 제안한 왜곡모델에 따라서 제거하였다. 우선, 스펙트럼 차감법을 사용하여 첨가된 잡음을 제거하고, 음성의 동적인 특성을 개선시키기 위해서 대역통과 필터를 통과시켰다. 두번째로 에너지 정규화를 사용하여 발성에너지의 변이를 제거하였고, 마지막으로 개발된 롬바드 효과의 크기척도를 사용하여, 롬바드 음성의 켑스트럼으로부터 깨끗한 음성의 켑스트럼을 추정하는 켑스트럼 변환에 이용하였다. 제안한 방법은 50단어의 한국어 음성인식에 적용한 결과 음성인식률을 크게 향상시켰다. SNR 0, 10, 20dB에서 각각 제안한 방법을 사용하지 않았을 경우에 46.3%, 75.5%, 87.4% 를 얻었고, 제안한 방법을 사용하였을 경우에는 82.6%, 95.7%, 97.6%로 인식률을 향상시켰다.

서지기타정보

서지기타정보
청구기호 {DCS 98018
형태사항 3, 93 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 지상문
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Spectral magnitude normalization and cepstral coefficients transform for noisy-Lombard speech recognition". Electronics Letters. The Institution of Electrical Engineers, vol. 32, no. 19, pp. 1761-1763 (1996)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 Reference : p. 88-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서