서지주요정보
(A) study on utterance verification using phone and state log-likelihood ratios in large vocabulary speech recognition = 대어휘 음성인식에서 음소 및 스테이트 로그우도비를 이용한 발화검증 연구
서명 / 저자 (A) study on utterance verification using phone and state log-likelihood ratios in large vocabulary speech recognition = 대어휘 음성인식에서 음소 및 스테이트 로그우도비를 이용한 발화검증 연구 / Suk-Bong Kwon.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021117

소장위치/청구기호

학술문화관(문화관) 보존서고

DICE 10001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Nowadays we can build a good quality automatic speech recognition (ASR) system with high recognition performance in some applications if sufficient training data are provided for the target tasks. However in real fields, not only diverse environmental conditions but also out-of-vocabulary inputs degrade the recognition performance of ASR systems. Thus it is very important to develop a technology to be able to make a proper decision with acceptance and rejection according to reliability of recognition results. Since similar words are likely to exist in search network as out-of-vocabulary words in large vocabulary speech recognition system, it is quite difficult to effectively reject incorrectly-recognized word simply by conventional confidence measures, particularly when the recognized word is similar to its correct transcription. In this thesis, we propose a few confidence measures using word voiceprint models and state log-likelihood ratio (SLLR) in verifying the speech recognition results. Word voiceprint models are designed to include word-dependent characteristics from the distributions of phone log-likelihood ratio and duration. Additionally, when obtaining a log-likelihood ratio-based word voiceprint score, we propose a new log-scale normalization function using the distribution of the phone log-likelihood ratio, instead of the sigmoid function widely used. This function plays a role of emphasizing the contribution of an incorrectly-recognized phone to the confidence score. This word-dependent information helps achieving a more discriminative score for out-of-vocabulary words. The proposed method shows that the relative reduction in equal error rate is 16.9% compared to the baseline one using simple phone log-likelihood ratios. The second proposed utterance verification algorithm uses state log-likelihood ratio with frame and state selection. The hidden Markov models have three states and each state represents different characteristics of a phone. Thus we propose an algorithm assigning different weights on state log-likelihood ratio to obtain more accurate confidence measure of recognized phones. Additionally, we consider a frame selection algorithm to remove unreliable speech frames in the input utterance. Also, phone segmentation information may not be accurate because triphone-based acoustic models are difficult to be effectively trained due to diverse pronunciations and coarticulation effects. So it is much more difficult to obtain the right state boundaries. A state selection algorithm is suggested to find reliable states. The proposed method using state log-likelihood ratio with frame and state selection shows that the relative reduction in equal error rate is 24.0% compared to the baseline one using simple phone log-likelihood ratios. The third proposed method, named adaptive word thresholding, concerns about how we can find a proper threshold for each word from distributions of phone log-likelihood ratio. Since word log-likelihood ratio is computed typically by averaging normalized phone log-likelihood ratios, the word threshold for verification should be determined according to the constituent phone characteristics. In the adaptive word thresholding algorithm, the distributions of phone log-likelihood ratios are obtained by phone context-dependent and vocabulary-independent approach to be applied to the large vocabulary speech recognition system. The adaptive word thresholding algorithm shows that the relative reduction in equal error rate is 12.7% compared to the baseline one using simple phone log-likelihood ratios.

최근에는 특정 응용분야에 맞는 충분한 훈련 데이터가 있으면 높은 인식성능을 가진 양질의 음성인식 시스템을 만들 수 있다. 하지만 실제 환경에서는 다양한 주변 환경 조건들과 비인식대상어휘들의 입력으로 인해 음성인식 시스템을 성능을 저하된다. 따라서 인식된 결과에 대해 모종의 신뢰도 분석을 통해 수락 및 거절을 할 수 있는 기술 개발 매우 중요하다. 대어휘 음성인식기에서는 유사한 단어들이 비인식대상어휘로써 탐색 네트웍에 존재하는 가능성이 높기 때문에 특히 오인식된 단어가 정답과 유사할 경우 오식된 결과를 기존의 신뢰도를 가지고 간단하게 거절하기가 어렵다. 따라서 본 학위논문에서는 인식된 결과를 검증하기 위해 단어 음색도 모델 (word voiceprint model)을 이용한 신뢰도 척도와 state 레벨에서의 로그우도비를 이용한 신뢰도 척도를 계산하는 방식들을 제안하고 있다. 첫 번째로 제안된 단어 음색도 모델은 단어별 음소 로그우도비 분포와 음소 지속시간 분포로부터 단어 종속적인 특징을 갖도록 설계되었다. 추가적으로 널리 신뢰도 척도를 구하기 위해 사용되고 있는 시그모이드 (sigmoid) 함수 대신에 음소별 로그우도비의 분포를 이용한 새로운 로그형태의 정규화 함수를 제한하고 있다. 이 함수는 오인식된 음소의 신뢰도를 강조하는 역할을 한다. 단어 음색도 모델의 단어 종속적 정보는 비인식대상어휘에 대해 분별적인 신뢰도 척도를 계산하는데 도움을 준다. 제안된 방식은 기본적인 로그우도 신뢰도 척도로 발화검증을 실험한 시스템보다 EER (Equal Error Rate) 측면에서 상대적으로 16.9%의 성능 향상을 보였다. 두 번째로 본 학위논문에서는 음소 로그우도비 보다 정밀한 로그우도비를 구하기 위해 state 레벨에서 로그우도비를 구하는 방식을 제안하였다. 일반적으로 HMM (Hidden Markov Model) 세 개의 state들을 가지고 있고 각 state는 음소의 다른 특징들을 표현하고 있다. 따라서 인식된 음소에 대해 보다 정확한 신뢰도 척도를 계산하기 위해서 state 레벨 로그우도비에 가중치를 주는 알고리즘을 제안한다. 추가적으로 입력 음성 중에서 신뢰도 측정에 불필요한 프레임을 제거하는 프레임 선택 알고리즘을 제안한다. 또한 triphone기반의 음향모델은 다양한 발성과 조음효과 때문에 효과적으로 충분히 훈련되기 어렵기 때문에 음소분할 정보가 명확하지 않다. 그래서 정확한 state 경계를 구하는 것은 더욱 더 어렵다. 따라서 신뢰성 있는 state를 찾기 위한 state 선택방식을 제안한다. 제안된 방식은 기존 시스템 보다 EER (Equal Error Rate) 측면에서 상대적으로 24.0%의 성능 향상을 보였다. 세 번째로 제안된 적응 단어 문턱치 생성 알고리즘은 음소레벨의 로그우도비의 통계적 정보를 이용해 적절한 단어별 문턱치를 생성하는 방법이다. 일반적으로 단어 로그우도비는 음소 로그우도비들의 평균으로 계산되기 때문에 인식된 단어의 문턱치는 구성 음소들의 특징에 의해 결정된다. 적응 단어 문턱치 생성 알고리즘이 대어휘 음성인식기에 사용될 수 있도록 음소 문맥 종속적 특징과 어휘 독립적인 특징을 갖는 로그우도비 분포로부터 단어의 문턱치를 구한다. 즉, 인식된 어떠한 단어에 대해서도 미리 구해진 음소 로그우도비 분포로부터 단어의 문턱치를 생성할 수 있다. 제안된 적응 단어 문턱치 생성 알고리즘은 기존 시스템 보다 EER (Equal Error Rate) 측면에서 상대적으로 12.7%의 성능 향상을 보였다.

서지기타정보

서지기타정보
청구기호 {DICE 10001
형태사항 iv, 96 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 권석봉
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
수록잡지명 : "Utterance verification using word voiceprint models based on probabilistic distributions of phone-level log-likelihood ratio and phone duration". IEICE Transaction on Information and Systems, v. E91-D, no.11, 2746-2750(2008)
수록잡지명 : "Utterance Verification using State-level Log-likelihood Ratio with Frame and State Selection". IEICE Transaction on Information and Systems, (2010)
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 86-90
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서