서지주요정보
Music identification using pitch histogram and MFCC-VQ dynamic pattern = 피치히스토그램과 MFCC-VQ 동적패턴을 이용한 음악 검색
서명 / 저자 Music identification using pitch histogram and MFCC-VQ dynamic pattern = 피치히스토그램과 MFCC-VQ 동적패턴을 이용한 음악 검색 / Chul-Eui Park.
발행사항 [대전 : 한국정보통신대학교, 2005].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000584

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS05-49 2005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

When we listen to unknown music contents on TV or computer, we often want to know some information about the music. However, it is usually difficult to get the desired information from service providers directly. Content-based MIR provides a solution for this problem. Therefore, various content-based audio retrieval techniques based on QBE have been required to efficiently identify an unknown music signal. In this thesis, we suggest two methods for music retrieval. One method is a MFCC-temporal method using the temporal characteristics of melody. The other method is a hybrid method based on pitch histogram and MFCC-VQ dynamic patterns: uses both static patterns and temporal patterns of melody for MIR. Our features include pitch and MFCC for representing the characteristics of notes and we describe melody patterns by using pitch histogram and temporal sequence of codeword index. Then, we compute the similarity between test pattern and reference patterns. When compare with the patterns, the proper pattern matching method is especially important to get good performance. Therefore we also present appropriate pattern matching methods for our retrieval methods. In MFCC-VQ temporal method, a time alignment method is used to compensate for the temporal difference between two patterns by shifting the reference sequence. In addition, A modified ED technique is employed which divides the distance of two patterns by the weighted value which is the number of frames with the same MFCC-VQ index. In the hybrid method, we used a TSO method using the minimum sum of order index in the pitch histogram and MFCC-VQ temporal method as the retrieved result. We have tested the proposed methods in small and broader search areas, which are two different TV drama OSTs and 1,005 popular songs, respectively. When we compare the proposed methods with baseline methods, the experimental results showed that the performance of our methods is better than that of the baseline methods in both search areas. Therefore, we can say that it can be used successfully in various MIR application areas.

본 논문에서는 내용기반 음악 정보 검색 방법으로써 멜로디의 시간 변화 특성과 확률적 특성을 이용하는 두 가지 방법에 대해 제안하였다. 실제 방송환경에 적용하기 위해 드라마 OST의 좁은 검색 범위뿐만 아니라 가요 1,005 곡의 넓은 검색 범위에서도 제안한 방법들에 대해 실험하였다. 제안한 방법 중, 첫번째, MFCC-VQ temporal 방법은 특징 벡터로써 MFCC를 사용하여 음의 특성을 나타내었으며 이러한 특징 벡터를 이용해 VQ 코드화한 MFCC의 템포럴 시퀀스를 이용해 멜로디를 표현하였다. 그리고 이 방법에 적절한 동기 보정 방법(time alignment)과 패턴 매칭 방법(modified ED)을 제안하였다. 그리고 두번째, hybrid 방법은 기존의 피치 히스토그램과 먼저 제안한 MFCC-VQ 템포럴 방식의 특성을 결합한 방식으로써 특징 벡터로 피치와 MFCC를 이용하여 음의 특성을 나타내었으며 멜로디를 표현하기 위해 피치 히스토그램과 VQ 코드화한 MFCC의 템포럴 시퀀스를 모두 이용함으로써 멜로디의 확률적 특성뿐만 아니라 동적 특성도 이용하여 음악검색 방법을 수행하였다. 또한 hybrid 방법에 적합한 패턴 매칭 방식인 TSO 방법을 제안하였다. 음악 검색 실험을 통해서 제안한 두 음악검색 방법을 기존의 음악검색 방법과 비교하여 보았을 때 좁은 범위의 검색 범위에서뿐만 아니라 넓은 검색 범위에서도 기존의 방식보다 우수한 성능을 나타내었다. 따라서, 본 논문에서 제안한 방법들은 멜로디의 시간 변화 특성과 확률적 특성을 이용함으로써 적절하게 멜로디를 표현하였으며 패턴 매칭 과정에서 배경 잡음이나 대사와 같은 잡음과 레퍼런스 패턴과 테스트 패턴 사이의 동기 차이에서 오는 성능 저하를 적절하게 보상함으로써 보다 높은 검색 결과를 얻을 수 있었다. 그러나 심한 잡음이나 큰 동기 차이에 있어서는 아직도 낮은 검색 결과를 나타내기 때문에 보다 더 세밀한 패턴매칭 방법을 적용하거나 잡음에 강인한 특징벡터의 선택 등의 적절한 문제 해결을 위한 노력이 필요하다.

서지기타정보

서지기타정보
청구기호 {ICU/MS05-49 2005
형태사항 x, 43 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박철의
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 38-40
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서