서지주요정보
A query-by-speech scheme for photo albuming = 음성 질의 기반 디지털 사진 검색 기법
서명 / 저자 A query-by-speech scheme for photo albuming = 음성 질의 기반 디지털 사진 검색 기법 / Tae-Sung Kim.
발행사항 [대전 : 한국정보통신대학교, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000692

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS06-18 2006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

It is common to store and manage many personal photos in the personal computer (PC) due to wide use of digital cameras. The larger the number of photos in the PC is, the more difficult it is for us to find a specific one among them. We suggest an attractive way to search photos by using speech query. If speech segment corresponding to the input query is included in some voice documents attached to the photos, the retrieval system will provide us the list of relevant photos that are stored in the PC. For the speech-based contents retrieval system, we propose two approaches that are based not on the speech-to-text conversion strategy but on the speech-to-speech matching strategy. The first one uses phoneme recognition techniques for the matching and the second uses traditional techniques such as vector quantization and dynamic time warping. For the phoneme recognition approach, we take two different methods. One is to use phoneme-occurrence information and the other is to use phoneme-sequential information additionally. These methods use the phoneme recognizer as the baseline process to produce the phoneme sequence for the speech input. In these methods, the pattern of phoneme sequence in the query is compared with those in the recorded files, and the similarities are calculated, which represent how much the queries are similar with the recorded files. The method using vector quantization(VQ) and dynamic time warping(DTW) is that the feature vectors of speech are clustered by vector quantization and the similarities are calculated between the clustered patterns of query and the recorded files by using dynamic time warping. Because dynamic time warping needs an amount of time, an alternative way is used to reduce the computations. At first, the frame sequence is separated into two sequences. One consists of the even numbered frames in the original frame sequence and the other consists of the odd numbered frames. Each sequence is compared with the odd or even sequences of recorded files with appropriate shift size by using dynamic time warping. In the case of the methods based on phoneme recognition, experiments do not show good performance since the performance of the phoneme recognizer has great influence on the whole performance of the retrieval system. The performance of the methods using VQ and DTW is relatively good, while it takes more time than the methods based on phoneme recognition. However, the dual-type queries and documents give large improvement of the performance as well as great reduction of the processing time of the retrieval system.

디지털카메라의 보급으로 사진을 찍고 컴퓨터에 보관하는 사람들이 늘고 있다. 이렇게 저장된 사진들은 시간이 지날수록 그 양도 늘어나서, 나중에는 원하는 사진을 찾기가 어려워진다. 이를 극복하기 위하여 디지털 카메라에서 제공하는 음성메모를 이용하여 사진을 검색하는 방법을 연구하였다. 즉 어떤 음성쿼리를 입력했을 때, 그 음성쿼리가 음성메모 내에 있을 경우 그 음성메모를 가지고 있는 사진이 검색되는 방식이다. 여기에는 여러 방법이 가능하지만, 본 논문에서는 음소인식을 이용한 방법과, Vector Quantization과 Dynamic Time Warping을 사용한 방법에 대해 성능을 비교하였다. 음소인식을 이용한 방법에서는 음소인식기를 통하여 얻어진 음소열을 검색에 이용한다. 얻어진 음소열에서 음소 발생 정보를 추출하여 음성쿼리와 음성메모 사이의 유사도를 측정하여 검색에 이용하는 방법과 음소열의 시간정보를 이용하여 유사도를 측정하는 방법에 대하여 성능을 비교한다. 한편, vector quantization과 dynamic time warping을 사용하는 방법에서는 음성의 각 프레임들을 vector quantization을 통하여 codeword 인덱스의 열로 변환한 뒤, dynamic time warping을 사용하여 codeword 인덱스의 열들 간의 패턴을 비 교한다. 이 때 음성쿼리의 프레임들을 홀수번째 프레임들과 짝수번째 프레임들로 나눈 뒤 음성 메모의 프레임들과 비교한다. 음소인식을 이용하는 방법에서는 음소인식기의 성능이 검색성능을 좌우하기 때문에 음소인식기의 낮은 음소인식률은 검색성능을 저하시켰다. 반면 vector quantization과 dynamic time warping을 이용하는 경우에는 우수한 검색성능을 나타내었으나, 음소인식을 사용하는 경우보다 검색시간이 더 걸렸다. 하지만, dynamic time warping시 사용한 dual type의 음성쿼리 비교방식은 검색시간을 단축시키고 검색성능도 향상시켰다.

서지기타정보

서지기타정보
청구기호 {ICU/MS06-18 2006
형태사항 x, 44 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김태성
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 40-41
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서