In this thesis, we propose various deep learning (DL) based methods for vocal melody extraction. Vocal melody extraction is the task that identifies the melody pitch contour of the singing voice from multiple sources. Previous studies have been proposed as methods of calculating the pitch saliency from a spectrogram or isolating the melody source from the mixture. However, these methods have limitations in obtaining optimal outputs for various music. Although the performance of melody extraction has improved with the recent advances in DL, there are still limitations in terms of overall performance, the model using music-related knowledge and the lack of labeled data.
Here we report the effective methods to estimate the pitch of melody and detect singing voice by introducing novel DL models and loss function. We also propose a multi-task network that allows pitch estimation and voice detection are tightly coupled. To address the lack of labeled data, we applied the semi-supervised learning that utilizes large amounts of unlabeled data. We explored the effects of three teacher-student model setups, data augmentation, unlabeled data, and proposed the most effective learning method for vocal melody extraction.
In addition, we apply semi-supervised learning to the singing vocal detection and show that it can be extended to other MIR tasks that suffer from lack of labeled data.
이 논문에서는 보컬 멜로디 추출을 위한 다양한 딥 러닝 방법론을 제안한다. 보컬 멜로디 추출은 다양한 소리가 섞여 있는 음원에서 보컬 멜로디 라인의 음고을 식별하는 작업이다. 이전 연구는 스펙트럼 상에서 음고에 해당하는 특정 부분을 계산하거나 음원을 분리하는 방식을 사용했으나 다양한 음원에 대해서 최적의 결과를 얻는 데 한계가 있다. 최근에는 딥 러닝이 멜로디 추출에 적용 되었으나 전반적인 정확도, 음악 관련 지식을 활용한 네트워크 구조, 그리고 데이터의 부족이라는 관점에서 여전히 한계가 존재한다. 우리는 효과적으로 멜로디의 음고를 추정하고 목소리를 감지할 수 있는 여러 딥 러닝 모델을 탐색하며, 또한 다양한 손실 함수에 대한 비교 및 분석을 제공한다. 우리는 멜로디 추출에서 서로 긴밀하게 연관되어 있는 두 가지 과제, 즉 멜로디 음고 예측과 보컬 존재 유무를 판별을 동시에 고려하도록 긴밀하게 결합된 새로운 모델과 손실 함수를 제안한다. 라벨링 된 데이터의 부족은 딥러닝 기반의 멜로디 추출 알고리즘의 근본적인 단점이다. 이 문제를 다루기 위해 우리는 멜로디 추출에 레이블이 없는 대량의 데이터를 활용할 수 있는 반지도 학습을 제안한다. 우리는 세 가지 선생-학생 모델과 무작위 데이터 증강 방법, 그리고 라벨이 없는 데이터의 구성에 따른 효과를 탐구하여 가장 효과적인 학습 방법을 제시한다. 또한 우리는 이 반지도 학습 방법을 보컬 탐지 모델을 학습하는데 적용하고, 이 방법이 레이블이 존재하는 데이터가 부족한 다른 음악 작업에도 확장될 수 있음을 보인다.