Automatic Speech Recognition (ASR) has made great advances in last 10 years. The application of ASR in everyday situation represents a new possibility in human-machine interface. For this to become a reality, it is important to distinguish in-vocabulary words from out-of-vocabulary words.
In order to reject out-of-vocabulary words effectively while accepting in-vocabulary words, conventional approaches such as the filler model approach or the on-line garbage model approach have been proposed. These approaches either require the use of extraneous data to train filler models or require adjusting when the set of in-vocabulary words is changed. In this thesis, a novel approach based on probabilistic characteristics is proposed to reduce the confusion between a claimed model and the other models. In order to reflect probabilistic characteristics of models, the anti-model for the claimed model is constructed by weighting observation probabilities of other models with their weights being inversely proportional to their distances to the claimed model. In addition, a hybrid of the proposed model and the on-line garbage model is also suggested to improve performance. The proposed method is evaluated using 455 Korean isolated words speech corpus. For simulation, 90 words are selected as in-vocabulary words and the same number of words are selected as out-of-vocabulary words without overlapping. The proposed method results in 8.33% of equal error rate, which is improved by 63.16% for the filler model approach and 39.77% for the on-line garbage model in error rate reduction.
실제 생활에서의 인간-기계 간의 의사 소통에 새로운 가능성을 제시해 주는 음성 인식은 근 10 년간 많은 발전을 이루어 왔다. 이러한 음성 인식 시스템이 실제 이용되기 위해 등록된 인식 대상 단어와 그렇지 않은 비인식 대상 어휘를 구별하는 기법이 필요하다.
비인식 대상 어휘를 효율적으로 제거하면서 인식 대상 어휘를 받아들이기 위해 기존의 접근 방식에서는 필러 모델이나 온-라인 가비지 모델을 이용하였다. 기존의 방법에서는 부가적인 음성 자료로 훈련된 필러 모델을 이용하거나 다른 인식 대상 어휘들의 유사도를 이용한다. 이 학위 논문에서는 인식된 단어와 그 외의 단어 모델간의 확률적 유사성에 의해 생기는 혼란을 막기 위한 확률적 성질에 기반을 둔 새로운 비인식 대상 어휘 제거 기법을 제안한다. 인식된 모델에 대한 반 모델은 다른 모델들의 관측 확률들을 인식된 확률 모델과의 확률적인 거리에 반비례하도록 가중치를 주어 생성된다. 제안된 기법의 성능을 개선하기 위한 온-라인 가비지 기법간의 결합 방식 또한 제안되었다.
이 논문의 2장에서는 음성 인식과 비인식 대상 어휘 제거 기법의 기본 개념에 대해 살펴본다. 3장에서는 제안된 기법이 설명되고 4장에서는 온-라인 가비지 모델과의 결합 방식을 서술하였다. 5장에서는 성능 평가를 수행하였으며 6장에서는 결론을 서술한다. 본 논문에 제안된 기법의 성능 평가는 음소가 균형적으로 분포된 455개의 한국어 고립단어를 이용하여 수행되었다. 실험을 위해 90개의 단어가 인식 대상 어휘로 선택되었으며 겹치지 않도록 선정된 같은 수의 단어가 비인식 대상 어휘로 선정하였다. 제안된 비인식 대상 어휘 제거 기법을 이용하여 기존의 필러 모델 기법에서의 결과에 비해 63.16%, 온-라인 가비지 기법의 결과에 대해 39.77% 만큼 오차율이 감소된 8.33%의 Equal Error Rate을 얻을 수 있었다.