서지주요정보
A highly robust audio fingerprinting scheme in real environments = 실제 환경에 강인한 오디오 핑거프린팅 기법
서명 / 저자 A highly robust audio fingerprinting scheme in real environments = 실제 환경에 강인한 오디오 핑거프린팅 기법 / Man-Soo Park.
발행사항 [대전 : 한국정보통신대학교, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000770

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/DS06-18 2006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, content-based audio identification techniques by an audio fingerprinting scheme that can retrieve audio information without any text-based query. They have been recognized as one of the state-of-the-art and attractive application services on the music portal market in wire/wireless communications. This dissertation introduces a methodology to this challenging task using an audio signal query to retrieve polyphonic music items by matching it to pre-indexed audio references. In real environments, however, sound recordings are commonly distorted by channel and background noise. As well, music signals can be easily distorted by time stretch (tempo change). The performance of audio identification is greatly degraded by those distortion factors. Thus, the robustness of an audio fingerprinting system is still one of the most important issues in music information retrieval by content-based audio identification techniques. This dissertation introduces the conventional audio fingerprinting schemes such as stochastic modeling and audio hashing. In the stochastic modeling scheme, spectral parameters are conventionally used to build a stochastic model. Foote proposed the stochastic modeling method for content-based music information retrieval (MIR) [16]. The stochastic model is based on the spectral envelope histogram, the histogram of spectral audio feature counts at the code vectors of vector quantization (VQ). In this dissertation, we propose a new distance metric to measure the similarity of two probability distributions and apply the dynamic matching method instead of the static matching method. As well, we proposed the stochastic modeling method which uses pitch histogram instead of spectral envelope histogram. Music can be identified by distinctive melody lines. Melody line consists of the harmony of musical notes. After all, pitch becomes very useful information because it is a basis of melody note. In addition, the number of histogram bins can be limited because pitch lies in the limited interval. Since music sound generally includes various musical patterns, however, spectral features are classified to numerous clusters. Haitsma and Kalker introduced a robust and efficient audio hashing scheme applying high-pass filtering (differentiation) to the frequency-time sequence of the perceptual filter-bank energies [7]. In practice, however, the robustness of the audio fingerprinting scheme is still important in real-noisy environments. Thus, we propose an extended method of the conventional audio hashing scheme using some modifications of both frequency filtering and temporal filtering for robust identification in real-noisy environments. As an alternative to frequency filtering, a type of BPF, instead of HPF, is used to achieve strength to background noise under real situations. As an alternative to temporal filtering, the RASTA filter, instead of HPF, is used to achieve immunity to channel distortion. In the audio hashing scheme proposed by Haitsma and Kalker, a bit is allocated by the sign of the filtered energy. Bit errors may occur around zero. To make up for this weakness, we propose an optimal bit allocation method by stochastic characteristics of the filtered energy for the audio hashing. And we apply a two-step audio hashing scheme by combining fingerprints with different characteristics, which are estimated from two types of the combination of frequency-temporal filtering or two types of the different bit allocation methods. The combination of the fingerprints with different characteristics is complemented to mutual weakness. Experimental results show that the proposed methods are generally effective to real environments. The stochastic modeling scheme based on pitch histogram is better than spectral envelope histogram for a song recognition system. In addition, the proposed distance metric and the dynamic matching method are very effective under distortion conditions. And the stochastic modeling scheme is more resilient to linear time-scale modifications than an audio hashing scheme. In real noisy environments, however, the audio hashing scheme is more useful than the stochastic modeling scheme. In the audio hashing scheme, especially in extracting the audio fingerprint that is highly robust under real-noisy conditions, BPF as the alternative to frequency filtering is much more effective than HPF. As well, we observed that the proposed two-step audio hashing scheme is very effective to real noise even if the size of fingerprints is doubled.

최근 오디오 핑거프린트 기술을 활용하여 텍스트 기반의 음악 검색 방법에서 벗어나 내용기반의 음악 정보검색이 가능하게 되었다. 이러한 내용기반 음악 검색 기술을 활용하여 유/무선 통신 환경에 최신 서비스들이 시도되고 있다. 그러나 다양한 환경에서 음악을 인식하기 위해서는 디지털 신호뿐만 아니라 실제 아날로그 신호를 녹음하여 인식할 수 있는 기술이 필요하다. 이때 일반 환경에서 아날로그 음악 신호를 녹음하는 경우 채널 특성과 주변 잡음의 영향으로 신호에 왜곡이 발생하게 된다. 또한, 종종 라디오 방송의 경우 음악의 재생 속도를 조절하는 경우가 있다. 일반 사용자들이 빠른 템포로 음악을 청취하기 위해 음악의 재생 속도를 증가시키는 경우도 있다. 이러한 경우, 오디오 신호 왜곡으로 인하여 오디오 특징 값이 일정하게 추출 되지 않아 음악 식별이 용이하지 않게 된다. 따라서 왜곡에 강인한 오디오 핑거프린팅 기술을 통해 실제 어플리케이션에 적합하도록 빠른 검색시간과 인식 정확도를 높이는 것은 매우 중요하다. 본 논문은 왜곡 조건들에 강인한 오디오 핑거프린트 추출을 위해 대표적인 오디오 핑거프린팅 기법인 확률적 모델링 기법과 오디오 해슁 기법으로 접근하였다. 확률적 모델링 기법에서 확률 모델의 유사도를 측정하기 위해 새로운 거리척도 함수를 제안하고, 기존에 사용되던 스펙트럴 파라미터를 활용한 히스토그램 대안으로 피치 히스토그램을 활용한 확률 모델링 기법을 제안하였다. 일반적으로 확률 분포의 유사도 측정은 엔트로피를 적용하게 되는데, 엔트로피 특성상 낮은 확률 성분에 가중치를 두게 된다. 그러나 음악 인식의 경우 확률 값의 의한 가중치 보다는 낮은 확률이나 높은 확률이나 음악을 인식하는데 주요한 성분이 된다. 따라서 본 논문에서는 이와 같은 단점을 보완하여 엔트로피 거리척도를 수정하여 음악 인식에 적절한 새로운 거리척도 함수를 제안하였다. 한 음악에 대해서도 오디오 신호는 매우 다양한 패턴을 지니게 된다. 따라서, 스펙트럴 파라미터를 활용한 히스토그램의 경우 클래스 개수가 많이 필요한 단점이 있을 수 있다. 그리고 음악 신호의 경우 음악의 구분요소는 멜로디 라인일 것이다. 멜로디 라인의 주축은 음표로 표현되기 때문에 음표의 기본인 피치 값을 활용하면 음악을 인식하는데 효과가 있다. 그러나 음악의 경우 일반적으로 다양한 악기와 보컬이 포함되는 polyphonic 특성이기 때문에 다중 피치 검출을 요하게 되지만, 여기에서는 음악 인식을 주 목적으로 하기 때문에 다중 피치보다는 가장 강한 주기성을 나타내는 피치를 추출하는 것이 효과적이다. 그리고 가장 강한 피치를 추출하기 위해서는 광범위한 주파수 범위보다는 밴드를 제한하는 것이 효과적일 것이다. 실험을 통해 밴드의 범위를 선정하여 피치 히스토그램으로 확률 모델을 생성한다. 피치의 경우 범위(히스토그램 빈 수와 연관) 가 한정되어 있으므로 히스토그램 생성시 효율적이 측면도 있다. 오디오 해슁 기법에서는 실제 잡음 환경에 강인한 오디오 핑거프린트를 추출하기 위해 기존의 HPF 타입의 주파수 필터링의 대안으로 2 차 FIR 필터의 BPF 타입을 제안하고, 채널 왜곡 및 템포 변화에 강인한 오디오 핑거프린트를 추출하기 위해 기존의 HPF 타입의 시간축 필터링의 대안으로 RASTA 를 적용하였다. 주파수/시간축 필터링의 조합에 따라 서로 다른 특성을 나타낼 수 있게 된다. 이러한 다른 특성의 주파수/시간축 필터링 조합을 활용하여 두 가지 특성의 핑거프린트를 사용하는 two-step 해슁 기법을 제안한다. 필립스에서 제안한 오디오 해슁 기법은 주파수/시간축 필터링 후의 필터뱅크 에너지 부호를 기반으로 비트 할당을 하게 된다. 그러나 비트 할당 시 낮은 에너지 값에서 비트 에러가 존재할 수 있게 된다. 이러한 단점을 보완하기 위해, 본 논문에서는 주파수/시간축 필터링 후의 핑터뱅크 에너지의 양을 기반으로 비트 할당 방법을 제안한다. 각 주파수 밴드마다 비트 할당을 위한 임계치를 정하기 위해 오디오 레퍼런스 데이터의 필터링 후의 각 밴드 에너지들의 확률 분포를 활용 한다. 그러나 이 경우에도 여전히 임계 값 주변에서 비트 에러가 발생 될 수 있다. 이 두 가지 비트 할당 방식의 단점들을 서로 보완할 수 있도록, 두 가지 비트 할당 방식을 모두 사용하여 두 가지 특성의 핑거프린트를 활용한 two-step 해슁 기법을 제안한다. 실험 결과 다양한 잡음환경 및 채널환경에서 제안한 방법들이 음악 인식 성능 개선에 효과적이었다. 확률적 모델링 방식에서는 새로 제안한 거리 척도 함수가 음악 인식성능 개선에 효과적이었으며, 기존의 스펙트럴 파라미터에 의한 히스토그램보다 피치 히스토그램을 적용한 확률 모델이 음악 인식에 더 적합하였다. 그러나 실제 잡음 환경에서는 확률적 모델링 방식이 오디오 해슁 방식보다 비효과적이었다. 반면에, 템포 변화에 대해서는 확률적 모델링 방식이 오디오 해슁 방식 보다 우수 하였다. 오디오 해슁 기법에서는 주파수 필터링의 대안으로 제안한 2 차 FIR 필터의 BPF 타입이 실제 잡음 환경 모든 곳에서 매우 우수하였고, 시간축 필터링의 대안으로 제안한 RASTA 의 경우 채널 잡음에 대해서만 효과를 나타내었다. 시간축 필터링의 대안으로 RASTA 를 적용한 결과 기존의 오디오 해슁 기법보다 템포 변화에 대해서는 매우 유연했다. 본 논문에서 제안한 주파수/시간축 필터링 조합을 활용한 two-step 기법은 모든 실제 잡음 환경에서 탁월한 효과를 나타내었다. 그리고 주파수 에너지 양을 기반으로 비트 할당을 할 경우에는 탁월한 효과는 없었지만, 두 가지 형태의 비트 할당 방식을 활용한 two-step 기법에서는 실제 잡음의 세기가 강할수록 매우 효과적이었다. 그러나 two-step 기법에서는 데이터베이스 사이즈가 두 배가 필요하게 되는 단점이 있다. 비록 RASTA 필터링의 효과로 템포 변화에 효과가 있었지만, 확률 모델링 기법보다는 템포 변화에 유연하지는 못하다. 본 논문에서 언급된 다양한 오디오 핑거프린팅 기법들은 각기 장단점을 지니고 있기 때문에 실제 환경과 사용 목적에 따라서 활용되어야 할 것이다.

서지기타정보

서지기타정보
청구기호 {ICU/DS06-18 2006
형태사항 xii, 88 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박만수
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 78-82
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서