서지주요정보
Utterance verfifcation using phone-level log-likelihood ratio patterns in word spotting systems
서명 / 저자 Utterance verfifcation using phone-level log-likelihood ratio patterns in word spotting systems / Chong-Hyon Kim.
발행사항 [대전 : 한국정보통신대학교, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0001157

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS09-10 2009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis proposes an improved method to verify an utterance that results from a word spotting system. A baseline word spotting system is implemented. The word spotting task in this thesis is to detect keywords from phone conversational database and according to the detected keywords, categorize speech data. To meet the systems specific goal and by analysis of target phone conversational speech, we build a multi-speaker dependent word spotting system. The system is based on HMMs and garbage models are used to model non-keyword intervals. These systems performance strongly rely on garbage models modeling non-keyword intervals. Even with accurate modeling of keyword and non-keyword intervals, these systems result in low performance. In order to improve performance of these systems, we use a two-pass structure which consists of a word spotting system and an utterance verification system. Using utterance verification for word spotting, the conventional LRT based method which uses simple mean of PLLRs to obtain confidence measures for each word has problems due to inaccurate keyword boundary information in recognition results and unclear pronunciation of words in continuous speech. So, in this thesis, we propose a method to use pattern of PLLRs in each keyword. This pattern information is used to give different weights to each phone in the process of generating confidence measures for each keyword. This proposed method uses word specific information resulting in more discrimination between in-vocabulary and out-of-vocabulary words. We also introduce another similar conventional method which uses PLLR distribution information for comparison with the proposed method. Experiments are performed on speech data which consists of 500 phone conversations between customers and call center operators. Experimental results for utterance verification shows that, using proposed method, we could achieve performance improvement of 11.8% compared to a baseline LRT based method using simple mean of PLLRs. Combining the proposed method with a conventional method using PLLR distribution information, we could achieve further improvement, resulting in an overall performance improvement of 22.6% compared to a baseline LRT based method using simple mean of PLLRs. Experimental results for word spotting shows that using proposed method and combined method, we could reduce the rate of false accepted keywords at the same keyword detection probability which indicates performance improvement. Proposed method, because it uses word specific pattern information, has shown performance improvement. We also investigated on possibilities to combine similar methods for further analysis of proposed method and possibilities for further performance improvement.

기존의 핵심어 인식기의 성능향상을 위한 방안으로 핵심어 인식기 후단에 발화검증 시스템을 추가시켜 사용하는 방식이 사용되어왔다. 이와 같은 핵심어 인식 시스템에 기존의 LRT기반의 단순한 발화검증 방식을 사용한 경우, 인간의 연속음성에 대한 발성특성과, 핵심어 인식기의 고유한 특성에 의해 특정음소의 PLLR 값이 떨어져 전체 신뢰도에 영향을 주게 되어 발화검증 시스템에서 올바른 결정을 하지 못하는 경우가 발생하였다. 본 논문에서는 이와 같은 현상을 해결하기 위해 각 인식대상 핵심어의 PLLR패턴을 이용한 발화검증 방식을 제안하였다. 제안된 방식은 각 인식대상 핵심어 별 다양한 발화에 대해 PLLR 패턴을 분석하고 이에 따른 가중치를 생성한다. 이와 같은 가중치를 이용하여 각 단어에 대한 신뢰도를 결정할 때 각 음소에 대해 다른 가중치를 부여하도록 한다. 이와 같은 신뢰도를 사용하여 실험한 결과, 각 PLLR의 평균으로 단어에 대한 신뢰도를 구하는 기본적인 LRT기반 발화검증 방식에 비해 EER 이 11.8% 향상되는 결과를 얻을 수 있었다. 또한 제안한 방식과 유사한 기존 방식인 Word voiceprint 를 접목하여 실험한 결과 기본적인 LRT 기반 발화검증 방식에 비해 EER이 22.4% 향상되는 결과를 얻을 수 있었다. 또한 제안된 방식 그리고 제안된 방식과 Word voiceprint 를 접목한 발화검증방식을 사용하여 핵심어 인식을 수행한 결과 동일한 핵심어 검출율 에서 오인식 된 핵심어 수를 줄임으로써 핵심어 인식기의 성능을 향상시키는 결과를 얻을 수 있었다. 제안된 방식은 단어의 PLLR 값들의 패턴정보를 통하여 단어에 대해 보다 적합한 신뢰도를 추출함으로써 성능향상을 보인다. 또한 본 논문에서는 이와 유사한 방식과의 접목을 통하여 제안된 방식에 대해 다시 한번 분석하고 추가적인 성능향상의 가능성을 보인다.

서지기타정보

서지기타정보
청구기호 {ICU/MS09-10 2009
형태사항 viii, 36 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김정현
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 32-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서