서지주요정보
Representation learning for boundary detection in music structure analysis = 음악 구조 분석에서 경계 탐지를 위한 표현 학습
서명 / 저자 Representation learning for boundary detection in music structure analysis = 음악 구조 분석에서 경계 탐지를 위한 표현 학습 / Minsuk Choi.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035856

소장위치/청구기호

학술문화관(문화관) 보존서고

MGCT 20003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Music has a structure that consists of functional sections such as verse or chorus in pop music. Detecting the boundaries between two functionally homogeneous sections is a front-end task toward complete music structure analysis. Boundary detection is typically conducted on a self-similarity matrix (SSM) computed from audio features that capture harmonic or timbral characteristics of a music track. Traditionally, hand-crafted features that explicitly extract the characteristics such as Mel-Frequency Cepstral Coefficients (MFCC), chroma have been common choices. In this paper, we propose a method to learn feature representations via deep neural networks to obtain more effective SSM. Specifically, we use a Siamese-style neural network with a triplet loss that consists of anchor, positive and negative examples to train the model. The anchor and positive samples are selected from the same or temporally close section in music structure whereas the negative samples are from the outside of the section that anchor and positive samples are selected. We show that this approach tends to render the audio features to bemore homogeneous within a section. Once we compute the SSM from the learned features, we apply a Gaussian checkerboard kernel to detect the structure boundary. We evaluate the performance of the proposed method on the SALAMI dataset. The results show that the propose method outperforms the traditional hand-crafted features when the same setup is used except the audio features.

음악은 팝에서의 절(verse)이나 후렴(chorus)와 같은 기능적인 영역들로 구성되는 구조를 갖는다. 두 개의 균일한 기능을 갖는 영역 사이의 경계를 탐지하는 일은 완전한 음악 구조 분석을 위한 기초적인 과제이다. 경 계 탐지는 주로 곡에서 추출된 화성이나 음색적인 특징들로 계산한 자기 유사성 행렬(self-similarity matrix,SSM)을 바탕으로 이루어진다. 전통적으로는 흔히 Mel-Frequency Cepstral Coefficient(MFCC)와 크로마(chroma)와 같은 수제(hand-crafted) 특징들이 사용되었다. 본 연구에서는, 더 효과적인 SSM을 얻기 위해 심층 인공신경망을 이용해 특징 표현을 학습하는 방법을 제안한다. 우리는 앵커(anchor), 양성(positive),음성(negative) 샘플로 구성되는 트리플렛(triplet) 손실 함수와 시아미스(Siamese) 양식의 인공 신경망을 사용하여 모델을 학습한다. 앵커와 양성 샘플은 같은 음악 영역이나 가까운 영역에서 선택되고, 음성 샘플은 해당 영역 밖에서 선택된다. 우리는 이러한 접근이 같은 영역에 속하는 오디오 특징들을 더 균질하게 만들어주는 경향이 있다는 것을 보였다. 우리는 이렇게 학습된 특징으로 SSM을 계산하고 가우시안 체커보드 커널을 적용, 구조 경계를 탐지하였다. 제안된 방법으로 탐지된 구조 경계는 SALAMI 데이터셋을 사용하여 평가하였다. 결과적으로 제안된 방법으로 학습된 특징들이 입력 특징을 제외하고 동일한 실험 구성에서 전통적인 수제 특징들에 비해 높은 성능을 보인다는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MGCT 20003
형태사항 iv, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최민석
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 26-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서