서지주요정보
Robust speech recognition using missing data theory = 손실 데이터 이론을 이용한 강인한 음성 인식
서명 / 저자 Robust speech recognition using missing data theory = 손실 데이터 이론을 이용한 강인한 음성 인식 / Lag-Young Kim.
발행사항 [대전 : 한국과학기술원, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8013458

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 02018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9008788

소장위치/청구기호

서울 학위논문 서가

DCS 02018 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For several decades, many researchers have proposed algorithms for robust automatic speech recognition so that a speech recognition system be utilized not only in laboratory environment but also in real noisy one. The robustness, in general, is de-fined as a characteristic of recognition systems that they are less sensitive to adverse conditions even when they are trained in clean ones. Speaker variation, speaking rate, and the mismatch of between training and testing environments make it difficult for the systems to be commercialized. Due to the characteristic of communication channel or the mismatch of between training and testing environments, linear filtering causes two problems: missing data in frequency and the masking effect that strong noisy signals make weaker ones inaudible. When there is mismatch in feature distributions between trained acoustic models and test features, recognition systems rapidly deteriorate. The goal of our work is to make recognition systems less sensitive to noisy environments. For this, we adopt a missing data theory, which is widely used in the field of statistics. The missing data theory has an advantage that it can be easily applicable to continuous density hidden Markov models. A marginalization method is used for processing missing data since it can be implemented with low complexity when applied to recognition systems. A spectral subtraction may be utilized for missing data detection. If the difference between the energy of speech and that of background noise is lower than a threshold, we assume that missing has occurred. Because we adopt a marginalization method for processing missing data, the wrong detection of missing data directly affects the recognizer's performance. To solve the problem, we propose a novel method that utilizes voicing probability as the reliability degree of detected missing data. Since consonants are more likely to be masked by background noise than vowels, the subbands in consonants are more probable to be classified into missing data than in vowels. But in the same level of distortion, human misrecognizes vowels more frequently than consonants. In addition, we detect missing data by auditory masking threshold under a missing data theory. In previous work, a subband is detected as missing data if its energy is lower than that of background noise. A Signal-to-Noise ratio has the same level of each subband for detecting missing data. However, human auditory system has a different level according to each subband. Therefore, we use human auditory masking effect for detecting missing data with coexistence of noise. We evaluated the proposed methods on Korean phoneme-balanced word recognition. The experimental results showed the improved performance than baseline system with spectral subtraction method. In isolated 452 words recognition experiment, the proposed method using the voicing probability reduced the average word error rate by 12% in a typical noisy situation. And the proposed method using masking threshold reduced the error rate by 19.0% on the same noisy situation. In this study, we proposed a new framework using missing data technique for robust speech recognition and evaluated our approach through successive experiments. From the experimental results, the proposed missing data techniques showed better performance in noisy condition. As a conclusion, the missing data technique was motivated by human auditory perception. These kinds of techniques have been being applied in main-stream of speech technology. Therefore, for speech recognition, we are able to apply the knowledge of human auditory perception to suppress some part of irrelevant information in speech message.

최근 10여 년 동안 실험실 수준의 음성인식 시스템을 실제 환경에서 평등한 수준으로 동작하도록 잡음에 강인한 접근 방법들이 많이 연구되어 왔다. 일반적으로 음성 인식에서의 강인성은 미리 학습된 인식모델을 사용 환경의 차이에 덜 민감하도록 하는 것을 의미한다. 그러나 화자간의 변이나 발성 속도, 사용되는 환경의 불일치 등 많은 문제로 인해서 상용화에 어려움을 겪고 있다. 이들 중 해결해야 할 가장 큰 문제는 주위환경의 변화에 대해서 인식기의 성능이 크게 저하된다는 것이다. 모델이 학습된 환경과 달리 실제 사용되는 환경 및 음성 통신 채널의 특성에 따라 주파수 상의 손실인 필터링이 발생하고 시간 영역에서 주위의 높은 소리에 의해 차폐되어 들을 수 없는 부분이 발생한다. 따라서 조용한 실험실 환경에서 손실이 없는 모든 정보를 이용해 학습된 인식 모델과 실제 사용 환경과의 차이로 인해서 인식기의 성능은 급격히 저하된다. 본 연구의 목표는 음성 인식기를 잡음 환경에 강인하게 만드는 것이다. 이 목표를 위해 우리는 통계 수학 분야에서 널리 쓰이는 손실 데이터 이론을 음성 인식에 적용해서 위에서 설명한 손실이 발생하는 상황에서도 높은 인식률을 유지하는데 목표를 두었다. 손실 데이터 이론은 통계적 정합 방법의 하나인 연속 밀도 은닉 마코프 모델 (continuous density hidden Markov model:CDHMM)의 출력 확률 밀도인 연속 Gaussian 확률 밀도 함수에 쉽게 적용될 수 있다는 장점을 갖고 있다. 손실 데이터 처리를 위해서 여러 손실 데이터 이론의 방법 중 계산 량이 적고 인식기에 적용이 쉬운 주변화 (marginalization)방법을 사용하였으며 특징 벡터의 특정 차수나 시간 열의 손실 여부의 검출을 위한 방법으로 음성 신호의 에너지와 주위 배경 잡음의 에너지의 차이가 임계 값보다 작게 되는 부분을 찾는 기존의 간단한 주파수 차감 방법을 이용하였다. 주변화 방법을 인식 모듈에 적용함으로써 손실 데이터 검출의 오류는 그대로 인식기의 성능에 영향을 끼치게 된다. 따라서 본 연구에서는 손실 데이터 검출의 오류를 줄이기 위하여 분석 구간이 모음일 확률(voicing probability)을 이용하는 손실 영역의 신뢰도 평가를 제안하였다. 일반적으로 자음은 모음보다 쉽게 배경 잡음에 의해서 차폐된다. 따라서 자음의 부대역 (subband)특징 벡터들은 모음의 부대역 특징 벡터들보다 손실 데이터로 검출되기 쉽다. 그러나 같은 크기의 왜곡에 대해서 사람은 자음보다 모음의 경우에 빈번히 잘못 인식하게 된다는 기존의 연구 결과를 토대로 자음일 경우 손실 데이터로 검출되지 않도록 하는 방법을 제안하였다. 또한 잡음의 차폐 크기를 이용하여 손실 데이터를 검출하는 방법을 제안하였다. 기존 주파수 차감에 의한 국부적 SNR은 손실 여부를 결정하기 위해서 모든 부대역에 동일한 임계 값을 적용한다. 하지만 사람의 청각 기관에서는 주파수 밴드별로 지각하는 정도의 크기가 다르게 나타난다. 따라서 잡음이 존재할 때, 보다 강인하고 신뢰성 있는 손실 데이터를 검출하기 위해서 사람의 청각기관의 차폐 효과를 이용하였다. 제안된 방법의 유효성을 검증하기 위하여 음소 별로 균등하게 분포되도록 만든 한국어 고립 단어 DB를 이용하여 화자독립 단어 인식 실험을 수행하였다. 제안된 방법들은 주파수 차감 방법을 이용하여 손실 데이터를 검출하는 기존의 방식보다 크게 성능 향상이 되었다. 452 단어 고립 단어 실험에서 분석 구간이 모음일 확률 (voicing probability)를 이용하여 손실 영역의 신뢰도 평가를 적용한 방법은 대표적인 잡음 환경에서 평균적으로 약 12 %의 성능 향상을 얻을 수 있었다. 또한 제안된 잡음의 차폐 크기에 기준해서 손실 데이터를 검출하는 방법의 경우에는 같은 잡음 환경 하에서 약 19 %의 오류율 감소를 얻을 수 있었다. 본 연구에서는 잡음에 강인한 음성 인식을 위하여 손실 데이터 이론을 사용하는 음성 인식 시스템을 구성하였으며, 많은 실험을 통해 제안된 방법들의 유효성을 평가하였다. 기존 연구와 비교 실험을 통해서, 제안된 방법들이 잡음환경에서 보다 강인하다는 결과를 얻을 수 있었다. 손실 데이터 이론을 적용한 강인한 음성 인식 방법은 사람의 청각적 지각에 관한 연구에서 그 동기를 얻었으며 이에 연관된 많은 연구들이 음성 기술에 적용되고 있다. 따라서 음성 신호에 포함된 언어 정보와는 상관없는 정보들을 제거하는 사람의 청각적 지각에 대한 많은 지식들이 음성 인식에 효과적으로 이용될 수 있었다.

서지기타정보

서지기타정보
청구기호 {DCS 02018
형태사항 x, 110 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김락용
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Missing data techniques using voicing probability for robust automatic speech". Electronics letters, v.37 no.11, pp.723-724 (2001)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 99-110
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서