서지주요정보
Acoustic feature compensation by class-based histogram equalization for robust speech recognition = 강인한 음성인식을 위한 클래스 기반 히스토그램 등화 기법에 의한 음향특징 보상 방법
서명 / 저자 Acoustic feature compensation by class-based histogram equalization for robust speech recognition = 강인한 음성인식을 위한 클래스 기반 히스토그램 등화 기법에 의한 음향특징 보상 방법 / Young-Joo Suh.
발행사항 [대전 : 한국정보통신대학교, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000771

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/DS06-19 2006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, we propose class-based histogram equalization (CHEQ) methods to compensate noisy acoustic features for robust speech recognition. The proposed methods aim at not only compensating for the acoustic mismatch between the training and test speech recognition environments, but also reducing the two fundamental limitations of conventional histogram equalization (HEQ). In contrast to conventional HEQ which uses global reference and test cumulative distribution functions (CDFs), the proposed methods utilize a number of class-specific reference and test CDFs, classify noisy test features into their corresponding classes, and equalize the features by using their class-specific reference and test distributions. According to the methods for utilizing class information, the proposed methods are classified into two forms: hard-CHEQ based on the vector quantization and soft-CHEQ based on the Gaussian mixture model (GMM). A class-tying technique is incorporated into both of the CHEQ methods to improve classification accuracy as well as to circumvent the sparse-data problem entailed in the class-based approach. Finally, CHEQ in combination with a minimum mean-square error log-spectral amplitude (MMSE-LSA) estimator is used for further performance improvement. Experiments on the Aurora-2 database confirmed the effectiveness of the CHEQ methods. The hard and soft-CHEQ methods produce overall average error reductions of 60.13% and 61.19% over the mel-frequency cepstral coefficient (MFCC)-based baseline features and those of 17.50% and 19.68% over conventional HEQ. In addition, the hard and soft-CHEQ methods with the class-tying technique provide additional improvement of 2.55% and 2.78% compared to the untied CHEQ methods, which result in overall average error reductions of 61.15% and 62.27% over MFCC-based baseline features and those of 19.61% and 21.92% over conventional HEQ, respectively. A combination of MMSE-LSA with CHEQ yields marginal performance improvement over CHEQ with overall average error reductions of 62.81% and 23.04% over MFCC-based baseline features and conventional HEQ, respectively. The CHEQ methods show especially high effectiveness in car, exhibition, station, and subway noises while they produce marginal performance improvement in human speech-like noises such as babble and restaurant noises. From the overall experimental results, it can be concluded that the proposed CHEQ methods are effective and efficient means to reduce the acoustic mismatch between the training and test environments and thus to prevent speech recognition systems from performance degradation in noisy environments.

본 논문에서는 강인한 음성인식을 위해 잡음이 인가된 음향특징을 보상하는 방법으로서 클래스 기반 히스토그램 등화 (CHEQ: class-based histogram equalization) 기법을 제안한다. 제안된 클래스 기반 히스토그램 등화 기법의 목적은 음성인식에서 훈련과 시험 환경 간에 존재하는 음향 불일치 현상의 보상과, 기존의 히스토그램 등화 (HEQ: histogram equalization) 기법에 내재하는 두 가지 근원적인 단점들의 극복에 있다. 전역 누적분포함수를 이용하는 기존의 HEQ에 비해, 제안된 CHEQ는 복수의 클래스별 기준 (reference) 및 시험 (test) 누적분포함수들을 사용하여 잡음이 인가된 시험 음향특징들에 대해 프레임마다 음향학적 클래스 분류에 의해 생성된 클래스 정보를 할당한 다음, 동일한 클래스로 분류된 음향 특징들을 해당 클래스의 기준 및 시험 누적분포함수를 사용하여 등화시킨다. 클래스 정보의 이용방법에 따라서, 제안된 방법에는 벡터 양자화에 의한 hard-CHEQ와 가우스 혼합 모델 (GMM: Gaussian mixture model)에 기반한 soft-CHEQ가 있다. 본 논문에서는 또한, 음향학적 클래스 분류의 정확성을 향상시킴과 동시에 클래스 기반 방법에서 불가피하게 수반되는 데이터 부족 문제(sparse-data problem)를 해결하기 위하여 클래스-타잉 (class-tying) 기법을 두 가지 CHEQs에 대해 각각 적용하였다. 마지막으로 최소 평균 자승-로그 스펙트럼 진폭 (MMSE-LSA: minimum mean-square error log-spectral amplitude) 추정 기법을 CHEQ의 전처리기로 사용하여 신호 영역에서 가산성 잡음을 일차로 감소시킨 후, 특징 영역에서 잡음이 일차적으로 감소된 특징들에 대해 CHEQ를 적용하는 방법을 도입하였다. ETSI Aurora-2 음성 데이타베이스를 사용하여 제안된 CHEQ 기법들에 대한 성능 평가를 수행하였다. 평가에 사용된 음성인식기는 HTK 기반으로서 양질의 Aurora-2 음성 데이터로부터 훈련되었다. 실험결과, hard-CHEQ와 soft-CHEQ는 시험 데이터 세트 A, B, 및 C에 대해서 기본 특징 추출기법인 멜-켑스트럼 계수 (MFCC: mel-frequency cepstral coefficient)에 비해 각각 60.13%와 61.19%의 오류 감소를 보였으며 기존의 HEQ에 비해서는 각각 17.50%와 19.68%의 오류 감소를 나타내었다. 제안된 클래스-타잉 기법을 CHEQs에 추가로 적용하였을 경우 추가 전의 경우들에 비해 각각 2.55%와 2.78%의 성능 향상을 보였다. MMSE-LSA 잡음 감소 기법을 CHEQ에 전처리기로 결합하였을 경우에는 CHEQ를 단독으로 사용하였을 경우와 비교하여 1.44%에서 4.39%의 성능 향상을 나타내었다. Aurora-2 개별 잡음에 대한 성능분석에서, 제안된 CHEQ 방법들은 babble 및 restaurant 잡음들에 대해서는 평균 이하의 성능향상을 보였지만 car, exhibition, train-station, subway 잡음들에 대해서 주목할만한 결과를 나타내었다. 전체 실험의 결과를 토대로 결론을 내리면, 제안된 CHEQ 방법들은 비교적 적은 계산량을 요하면서도 훈련과 시험 환경 간에 존재하는 음향 불일치를 효과적으로 감소시킴으로써 잡음 환경에서 운용되는 음성인식 시스템의 성능저하를 방지하는데 유용하게 적용될 수 있으리라고 본다.

서지기타정보

서지기타정보
청구기호 {ICU/DS06-19 2006
형태사항 viii, 124 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 서영주
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 115-119
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서