서지주요정보
Deep learning for vocal melody extraction = 보컬 멜로디 추출을 위한 딥러닝
서명 / 저자 Deep learning for vocal melody extraction = 보컬 멜로디 추출을 위한 딥러닝 / Sangeun Kum.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037549

소장위치/청구기호

학술문화관(문화관) 보존서고

DGCT 21006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, we propose various deep learning (DL) based methods for vocal melody extraction. Vocal melody extraction is the task that identifies the melody pitch contour of the singing voice from multiple sources. Previous studies have been proposed as methods of calculating the pitch saliency from a spectrogram or isolating the melody source from the mixture. However, these methods have limitations in obtaining optimal outputs for various music. Although the performance of melody extraction has improved with the recent advances in DL, there are still limitations in terms of overall performance, the model using music-related knowledge and the lack of labeled data. Here we report the effective methods to estimate the pitch of melody and detect singing voice by introducing novel DL models and loss function. We also propose a multi-task network that allows pitch estimation and voice detection are tightly coupled. To address the lack of labeled data, we applied the semi-supervised learning that utilizes large amounts of unlabeled data. We explored the effects of three teacher-student model setups, data augmentation, unlabeled data, and proposed the most effective learning method for vocal melody extraction. In addition, we apply semi-supervised learning to the singing vocal detection and show that it can be extended to other MIR tasks that suffer from lack of labeled data.

이 논문에서는 보컬 멜로디 추출을 위한 다양한 딥 러닝 방법론을 제안한다. 보컬 멜로디 추출은 다양한 소리가 섞여 있는 음원에서 보컬 멜로디 라인의 음고을 식별하는 작업이다. 이전 연구는 스펙트럼 상에서 음고에 해당하는 특정 부분을 계산하거나 음원을 분리하는 방식을 사용했으나 다양한 음원에 대해서 최적의 결과를 얻는 데 한계가 있다. 최근에는 딥 러닝이 멜로디 추출에 적용 되었으나 전반적인 정확도, 음악 관련 지식을 활용한 네트워크 구조, 그리고 데이터의 부족이라는 관점에서 여전히 한계가 존재한다. 우리는 효과적으로 멜로디의 음고를 추정하고 목소리를 감지할 수 있는 여러 딥 러닝 모델을 탐색하며, 또한 다양한 손실 함수에 대한 비교 및 분석을 제공한다. 우리는 멜로디 추출에서 서로 긴밀하게 연관되어 있는 두 가지 과제, 즉 멜로디 음고 예측과 보컬 존재 유무를 판별을 동시에 고려하도록 긴밀하게 결합된 새로운 모델과 손실 함수를 제안한다. 라벨링 된 데이터의 부족은 딥러닝 기반의 멜로디 추출 알고리즘의 근본적인 단점이다. 이 문제를 다루기 위해 우리는 멜로디 추출에 레이블이 없는 대량의 데이터를 활용할 수 있는 반지도 학습을 제안한다. 우리는 세 가지 선생-학생 모델과 무작위 데이터 증강 방법, 그리고 라벨이 없는 데이터의 구성에 따른 효과를 탐구하여 가장 효과적인 학습 방법을 제시한다. 또한 우리는 이 반지도 학습 방법을 보컬 탐지 모델을 학습하는데 적용하고, 이 방법이 레이블이 존재하는 데이터가 부족한 다른 음악 작업에도 확장될 수 있음을 보인다.

서지기타정보

서지기타정보
청구기호 {DGCT 21006
형태사항 iv, 75 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 금상은
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(박사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 64-72
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서