서지주요정보
(An) approach for melody extraction using a harmonic structure model = 하모닉 구조 모델을 이용한 멜로디 추출 접근
서명 / 저자 (An) approach for melody extraction using a harmonic structure model = 하모닉 구조 모델을 이용한 멜로디 추출 접근 / Si-Hyun Joo.
저자명 Joo, Si-Hyun ; 주시현
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022718

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 11105

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

This thesis considers an algorithm for extracting the melody pitch of a given polyphonic audio using a harmonic structure model. The proposed algorithm performs melody extraction in two steps: (1) melody pitch candidate estimation and (2) melody pitch sequence identification that includes a simple smoothing process. In the melody pitch candidate estimation step, multiple melody pitch candidates are estimated based on a cost that informs the strength of the harmonic structure in the spectrum of a windowed signal. Various techniques accurately estimate melody pitch candidates: (1) several harmonic structures are estimated from monophonic data containing a melody sound, such as a singing voice, piano, or saxophone, because the harmonic structure of the melody pitch is different from the melody instruments, pitches, and tempos; (2) a melody pitch range is estimated based on the pitch candidates to increase accuracy and reduce computation complexity; (3) percussive sounds are suppressed to reduce percussive sound interference. In the melody pitch sequence identification step, a melody line is selected from the many possible pitch sequences based on the following properties of the melody line: (1) the vibrato exhibits an extent of 60-200 cent for human singing voices and only 20-30 cent for other instruments; (2) transitions between melody notes are typically limited to one octave (1200 cent); (3) a rest during singing is longer than 50 ms. Then, a smoothing process is performed to refine spurious pitches and octave errors. The ADC04 database, MIREX05 training database, and RWC database are used for the experiment. The experiment results show that the proposed melody extraction algorithm is reasonable and performs comparably to state of the art algorithms.

본 학위 논문에서는 하모닉 구조 모델(harmonic structure model)을 이용하여 다음 오디오(polyphonic audio) 속에 내포되어 있는 멜로디 피치(melody pitch)를 추출하는 알고리즘을 제안한다. 본 논문에서 제안하는 멜로디 추출 알고리즘은 멜로디 피치 후보 예측 단계(melody pitch candidate estimation step)와 멜로디 피치 시퀀스 확인 단계(melody pitch sequence identification step)로 이루어져 있으며, 각 단계는 다음의 과정들로 구성된다. 우선, 멜로디 피치 후보 예측 단계에서는 본 논문에서 정의한 비용 함수(cost function)에 기반하여 각 프레임별로 여러 개의 멜로디 피치 후보들을 추출한다. 이 때, 비용 함수는 윈도우화된 신호(windowed signal)의 스펙트럼 내에 본 논문에서 제안하는 하모닉 구조 모델이 어느 정도 내포되어 있는지를 나타낸다. 이 단계에서는 보다 정확한 멜로디 피치 후보들을 추출하기 위해서 아래의 3가지 방법들이 사용된다. (1) 멜로디의 하모닉 구조 모델은 멜로디 악기(instrument), 피치(pitch), 템포(tempo)에 따라 그 모양이 달라지므로, 멜로디로 많이 사용되는 노랫 소리(singing voice), 피아노(piano), 색스폰(saxophone)의 단음(monophonic) 오디오 데이터로부터 몇 가지의 일반적인 하모닉 구조 모델을 정한다. (2) 멜로디 피치 후보의 정확성을 높이고 계산량을 줄이기 위해서 멜로디 피치 후보들을 이용하여 각 입력 오디오 신호에 대한 멜로디 피치 범위(melody pitch range)를 예측한다. (3) 고주파 신호 통과 필터(high pass filter)와 하모닉/타악기 소리 분리기(harmonic/percussive sound separator)를 이용하여 타악기 소리의 간섭을 줄인다. 다음으로, 멜로디 피치 시퀀스 확인 단계에서는 멜로디 피치 후보들을 연결하여 가장 신뢰할 만한 멜로디 피치 시퀀스를 결정한다. 이 때, 멜로디 피치 후보들은 멜로디 피치 시퀀스가 가지는 아래의 3가지 특성에 기반하여 연결한다. (1) 사람의 노랫 소리는 60-200 cent의 비브라토(vibrato) 범위를 가지고, 음악 악기는 20-30 cent의 비브라토 범위를 가진다. (2) 일반적으로, 멜로디의 음 변화(note transition)는 한 옥타브(octave) 이내에서 발생한다. (3) 음악에서 사람은 호흡을 위해 50ms 이상의 시간을 소요한다. 위 세 가지 특성에 기반하여 멜로디 피치 시퀀스를 구한 후, 스무드화 과정(smoothing process)을 통해 옥타브 에러와 잘못 예측된 멜로디 피치를 제거한다. 제안된 멜로디 추출 알고리즘은 ADC04 데이터베이스, MIREX05 훈련 데이터베이스와 RWC 데이터베이스 3개의 데이터베이스를 사용하여 그 성능을 평가하였다. 실험을 통해서 제안한 알고리즘이 기존의 우수한 멜로디 추출 알고리즘들과 견줄 수 있는 성능을 보임을 확인할 수 있었다.

서지기타정보

서지기타정보
청구기호 {MEE 11105
형태사항 v, 36 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 주시현
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기 및 전자공학과,
서지주기 References : p. 33-36
주제 melody extraction
harmonic structure model
polyphonic audio
harmonic sound
멜로디 추출
하모닉 구조 모델
다음 오디오
하모닉 소리
QR CODE qr code