서지주요정보
확률적 슬롯 검출 및 n-gram 유사도 측정법을 이용한 음소 기반 음성 검색 = Phone-based speech search using probabilistic slot detection and n-gram similarity measure
서명 / 저자 확률적 슬롯 검출 및 n-gram 유사도 측정법을 이용한 음소 기반 음성 검색 = Phone-based speech search using probabilistic slot detection and n-gram similarity measure / 이수장.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020133

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 09018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The increased computing power and development of storage result in huge amount of multimedia data being produced. As the speech of the content tells us of the subjects, topics and concepts, it is obvious that speech is one of the most important sources of information for multimedia content. As a result, the retrieval of the spoken audio content has emerged as a key application area. To conduct the Spoken Document Retrieval, there are two problems which should be solved. One is the accuracy of the recognition output. The state-of-art Automatic Speech Recognition (ASR) system could make the transcriptions including word error. So, when retrieving spoken audio content, we should consider this property of ASR system. The other is the out-of-vocabulary (OOV) problem. The use of sub-word (typically phones) indexing terms is a way to avoid this problem. It makes the indexing and retrieval process independent from any word vocabulary, virtually allowing for the retrieval of any query term. However, phone-based recognition system has a major drawback. They have much higher word error rates than the Large Vocabulary Continuous Speech Recognition (LVCSR) system. So, the study to cope with high error rates is need. In this paper, we propose an probabilistic slot detection and N-gram based string matching method for phone based spoken document retrievals to overcome high error rates of phone recognizer. Experimental results have shown 9.25% relative improvement in the mean Average Precision(mAP) with 1.7 times speed up in comparison with the baseline system.

컴퓨팅 파워의 증가와 저장 장치의 발달로 인터넷상에는 대용량의 멀티미디어(오디오 및 비디오)자료가 생산되고 있다. 수작업에 의한 색인방법은 그 한계가 존재하므로 자동화할 수 있는 음성 문서 검색(spoken document retrieval: SDR) 기술은 점점 더 핵심 응용 분야로 떠오르고 있으며, 이에 대한 연구가 활발히 진행되고 있다. SDR은 색인 단위에 따라 대규모 연속 음성 인식기(large vocabulary continuous speech recognition: LVCSR)를 이용한 워드 단위 방법과 음소 인식기를 이용한 서브워드 단위 방법으로 구분할 수 있다. LVCSR 시스템을 사용하면 높은 인식 성능을 얻을 수 있지만 미등록 어휘(out of vocabulary: OOV)에 대해서는 인식 성능이 하락하는 문제가 존재한다. 대신 음소 인식기를 이용하면 이 문제를 해결할 수 있다. 하지만 음소 인식기는 LVCSR 시스템에 비해 인식 성능이 높지 않기 때문에 오류를 고려한 검색 기법이 필요하다. 본 논문에서는 음소 인식기의 낮은 인식률을 극복하기 위해 확률적 슬롯 검출방법과 n-gram기반의 유사도 측정법을 제안한다. 실험 결과 제안된 시스템의 검색 정확도가 9.25% 향상되면서 검색 속도 또한 1.7배 빨라지는 것으로 나타났다.

서지기타정보

서지기타정보
청구기호 {MCS 09018
형태사항 v, 33 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Su-Jang Lee
지도교수의 한글표기 : 오영환
지도교수의 영문표기 : Yung-Hwan Oh
수록잡지정보 : "음소인식 오류에 강인한 N-gram 기반 음성 문서 검색". 말소리, no.67, pp.149-166(2008)
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 31-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서