서지주요정보
Melody extraction based on dynamic bayesian network = 동적 베이지안 네트워크에 기반한 멜로디 추출
서명 / 저자 Melody extraction based on dynamic bayesian network = 동적 베이지안 네트워크에 기반한 멜로디 추출 / Seok-Hwan Jo.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022272

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 11028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis considers a melody extraction algorithm based on the state-space equation of the parameters that define melody. In this thesis, melody is defined to be the singing voice pitch sequence in the vocal part and the pitch sequence of leading instrument in non-vocal part of music. The main idea of the considered algorithm is that the parameters that consist of melody pitch and their harmonic amplitudes are assumed to follow two uncoupled first-order Markov processes, and the polyphonic audio is related to the parameters such that the current framed segment of the polyphonic audio is conditionally independent of other framed segments given the parameters. From this perspective, a dynamic Bayesian network (DBN) for melody extraction can be constructed. And the posterior probability is estimated from this DBN, and it is used to estimate the parameters for melody extraction. To obtain the posterior probability, the likelihood and transition probabilities need to be defined. In defining the likelihood, the accompaniment which is considered the difference between polyphonic audio and melody is assumed to follow a multivariate Gaussian distribution. The transition probability of the melody pitch is obtained based on the statistical characteristics of music that account for small and large variation in melody, and the transition probability of the harmonic amplitudes is assumed to be a Gaussian for reasons of mathematical tractability. To estimate the parameters, the sequential Monte Carlo (SMC) method is utilized. The SMC method relies on a so-called sequential importance density, and this density is designed using multiple-pitches which are estimated by a simple multiple-pitch extraction algorithm. Experimental results show that the performance of the considered algorithm is better than or comparable to those of other well known melody extraction algorithms in terms of the raw pitch accuracy and the raw chroma accuracy.

동적 베이지안 네크워크(dynamic Bayesian network)를 이용한 다음 오디오 신호(polyphonic audio)에서의 멜로디(melody) 추출 알고리즘에 대해 제안하도록 한다. 대부분의 사람들은 음악 신호를 들었을 때 음악의 모든 음을 기억하는 것이 아니라 특별한 하나의 음의 시퀀스를 기억하게 되는데 이를 멜로디라고 한다. 이 논문에서는 사람이 노래를 부르는 음악 구간에서는 사람 목소리의 피치 시퀀스를, 사람이 노래를 부르지 않은 음악 혹은 음악 구간에서는 연주를 주도하는 악기의 피치 시퀀스를 멜로디라고 정의하도록 한다. 이 논문에서는 동적 베이지안 네트워크에 기반하여 다음 오디오 신호에서 멜로디를 추출하는 알고리즘을 제안하도록 한다. 다음 오디오 신호의 프레임 별 퓨리어 변환값들이 주어졌을 때, 멜로디 피치값과 그 피치에 관련된 하모닉 성분의 크기를 1차 마르코프 과정(first-order Markov process)을 따른다고 가정한다. 또한 현재 프레임의 다음 오디오의 퓨리어 변환값들은 현재 프레임의 멜로디 피치값과 하모닉 성분의 크기가 주어졌을 때 다른 프레임의 다음 오디오의 퓨리어 변환값들과 조건부 독립(conditionally independent)이라고 가정한다. 위 가정을 바탕으로 동적 베이지안 네트워크를 만들 수 있고 이 동적 베이지안 네트워크에서 멜로디 피치값과 하모닉 성분의 크기를 추정함으로써 멜로디를 추출할 수 있다. 멜로디 피치값의 전이 확률은 간단히 가우시안 분포를 따른다고 가정하지 않고 음악학 이론에 기반한 음악의 여러 확률적 특성에 기반하여 정의한 비가우시안 분포를 따른다고 가정하였고 하모닉 성분의 크기의 전이 확률은 계산량을 고려하여 가우시안 분포를 따른다고 가정하였다. 멜로디 피치값의 전이 확률이 비가우시안 분포를 따르고 멜로디 피치값과 하모닉 성분의 크기가 다음 오디오 내에 비선형적으로 포함되어 있으므로 이들을 추정하기 위해 순차적 몬테 카를로 기법(sequential Monte Carlo method)을 이용한다. 이 때, 순차적 몬테 카를로 기법에서 쓰이는 중요분포는 간단한 멀티피치 추출 알고리즘의 추정값들을 이용하여 고안하였다. 제안한 알고리즘을 RPA와 RCA라는 측정치로 비교하는데, 데이터베이스에 따라 현재 가장 좋은 멜로디 추출 알고리즘과 거의 비슷한 성능을 나타내거나 더 나은 성능을 나타냄을 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 11028
형태사항 viii, 71 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조석환
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
수록잡지명 : "Psychoacoustically Constrained and Distortion Minimized Speech Enhancement". IEEE Transactions on Audio Speech and Language Processing, v. 18, no. 8, pp. 2099-2110(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p. 66-71
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서