서지주요정보
Dynamic weighting scheme based N-gram adaptation for large vocabulary continuous speech recognition = 동적 가중법에 기반한 N-gram 적응을 이용한 대어휘 연속음성인식
서명 / 저자 Dynamic weighting scheme based N-gram adaptation for large vocabulary continuous speech recognition = 동적 가중법에 기반한 N-gram 적응을 이용한 대어휘 연속음성인식 / Joon-Ki Choi.
발행사항 [대전 : 한국과학기술원, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8017701

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 06016

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Large vocabulary continuous speech recognition (LVCSR) is that machine recognizes natural speech with a very large or practically unlimited vocabulary spoken in a free flowing manner. The general architecture of modern LVCSR consists of a hidden Markov model (HMM) based acoustic model and an N-gram based language model. The N-gram is a dominant model in LVSCR since it is easy to implement, smoothly coupled with a speech recognizer, and very effective. Unfortunately, the N-gram model cannot deal with various domains simultaneously as it is dependent on the domain of the training data. N-gram adaptation has gained popularity due to its ability to cope with the problem of the domain dependency in the N-gram model. The N-gram adaptation technique updates the characteristics of the background N-gram model into a domain specific model with little or no manually annotated adaptation corpus. The two major problems which restrict the performance of the adapted N-gram are the acquisition of the adaptation corpus and the combining method of the background and the adapted model. First, we use the language modeling approach to information retrieval (IR) to collect the adaptation corpus with an N-gram retrieval model. Recently, IR techniques have been widely used to build a training corpus for N-gram adaptation. Among the various IR techniques, the language modeling approach to IR uses the similarity between the language model of a query and the language model of a document as the distance measure. Experimental results show that the usage of bigram and trigram retrieval models instead of a unigram model improves the quality of the collected adaptation corpus. Second, a dynamic language model interpolation coefficient is proposed to solve the merging problem. The proposed interpolation coefficient varies according to the segment of the recognition hypothesis. All word hypotheses in a certain segment of the input speech were used as the validation data to estimate the interpolation coefficient. Experiments on Korean broadcast news speech recognition show that our proposed method never degraded the performance of the background N-gram. Finally, we propose a dynamic language model weight which is used in decoding procedure. Since the ranking change of the recognition hypothesis due to our proposed adapted N-gram is reliable, we can adjust the weighting factor between the acoustic model and language model in LVCSR. The language model weight is referred to as a balance mechanism between the underestimated acoustic model and the language model. Hence if we assume that the change of the language model is always reliable, we can increase the language model weight for the speech segment where the acoustic model is unreliable and the language model is reliable. We used an acoustic stability to detect the acoustically unstable interval. We used discriminative training to adjust the language model weight. Experimental results show that proposed language model weighting scheme improves the overall performance of LVCSR.

대어휘 연속음성인식은 화자가 대규모의 어휘를 이용하여 자연스럽게 발성한 음성을 인식하고자 하는 시도이다. 최근의 대어휘 연속음성인식기는 은닉 마르코브 모델 (HMM)에 기반한 부단어 단위의 음향모델과 통계적 언어모델인 N-gram을 사용하여 구성되는 것이 일반적이다. N-gram은 구현의 용이함, 음성인식과의 수월한 결합, 뛰어난 성능으로 인하여 대어휘 연속음성인식을 위한 언어모델로서 널리 사용되고 있다. 그러나 N-gram은 학습 자료의 영역에 의존하는 단점을 가지고 있어서 이 문제를 극복하기 위하여 N-gram 적응 기법이 개발되었다. N-gram 적응기법이란 대규모 학습자료로부터 얻어진 기본 N-gram을 소규모의 영역 특화된 적응 코퍼스를 이용하여 입력음성의 영역에 적합하게 만드는 기법이다. N-gram 적응 기법의 성능을 결정하는 요인은 다음의 두 가지가 있다. 첫째, 입력음성의 영역과 유사한 영역을 가지고 있는 적절한 적응 코퍼스의 수집과 둘째, 적은 규모의 학습자료만을 사용함으로써 생기는 데이터 희귀 (data sparseness) 문제를 극복하기 위한 기본 언어모델과의 병합이다. 일반적으로 적응 코퍼스는 미리 준비되어있지 않을 뿐만 아니라 인식대상 음성의 영역도 알려지 있지 않은 경우가 대부분이기 때문에 적응 코퍼스를 구하기 위하여 음성인식의 중간결과를 질의어로 사용하고, 기존의 대규모 말뭉치나 웹을 검색하고 원하는 코퍼스를 수집하는 정보검색에 기반한 방법이 널리 사용된다. 본 연구에서는 음성인식의 신뢰도를 사용하여 추출된 인식 후보 단어열을 정보검색의 질의로 이용하였으며, 기존의 정보검색 기법 중 언어모델 정보검색 기법을 사용하는 방법을 개선하였다. 일반적인 텍스트 기반의 언어모델 정보검색 기법에서는 유니그램 모델과 Dirichlet 평탄화의 조합이 가장 널리 사용되나, 본 연구에서는 검색 모델의 문맥을 트라이그램으로 확장하고 Katz 평탄화를 사용하여 구한 적응 코퍼스의 성능이 더 좋음을 실험적으로 증명하였다. 이를 통하여 일반 텍스트 기반의 정보검색과 적응 코퍼스를 구하기 위한 정보검색의 성격이 서로 다름을 알 수 있었다. N-gram 적응 기법의 두 번째 문제인 기본 N-gram과의 병합기법에는 기본 N-gram과 적응 N-gram의 상대적인 중요도를 결정하는 가중치가 사용되며, 이 가중치로 인해서 최종 적응 N-gram의 성능이 결정된다. 본 논문에서는 음성인식의 중간 결과를 분할하고 각 구간에 최적의 보간 계수를 동적으로 부여하는 방법을 제안하였다. 음성인식의 중간 결과를 분할하는 기준은 언어모델에 대한 민감도를 사용하였으며, 분할된 구간의 모든 인식 후보 단어열을 모아서 검증 자료로 사용하였다. 제안한 방법은 기종의 방식들에 비해 월등한 성능을 나타내었으며, 기본 N-gram의 성능을 저하시키지 않는 적응 N-gram을 구할 수 있었다. 마지막으로 본 연구에서는 기본 N-gram의 성능을 저하시키지 않는 동적 가중치를 이용한 적응 N-gram의 특성을 활용하여 대어휘 연속음성인식의 언어모델 가중치를 동적으로 결정하는 방법을 제안하였다. 일반적인 대어휘 연속음성인식에서는 음향모델과 언어모델의 값의 대역 차이를 극복하기 위하여 언어모델 가중치를 사용한다. 이 때 언어모델의 변화가 항상 성능이 향상되는 변화임을 가정하면 음향모델의 신뢰도가 떨어지는 구간에 대해서 언어모델의 상대 가중치를 증가시킬 수 있으며 이를 통하여 음성인식의 오류를 줄일 수 있다. 언어모델 가중치를 증가시키는 구간은 음향모델의 신뢰도와 언어모델의 신뢰도를 이용하여 분할아였으며 가중치의 결정은 변별학습 (discriminative training)을 통하여 결정하였다. 제안한 동적 언어모델 가중법은 한국어 방송뉴스인식기에 적용되어 기존의 언어모델 가중법에 비해 향상된 성능을 보여주었다.

서지기타정보

서지기타정보
청구기호 {DCS 06016
형태사항 x, 96 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최준기
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "N-gram adaptation with dynamic interpolation coefficient using information retrieval ". The IEICE transactions on information and systems, v.E89-D, no.9, pp. -(2006)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 88-96
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서