Semantic analysis and applications of vocal characteristics in music using deep learning = 딥 러닝을 이용한 음악 보컬 특징의 의미론적 분석 및 적용
Keunhyuoung Kim.
[대전 : 한국과학기술원, 2021].
DGCT 21001

Our voice have been the primary musical instrument in human history. Along with the development of expressive and perceptual competency of singing voice, its ability to deliver complicated and delicate feeling takes the most important part in most music genres, especially in popular music. Thus it has been a significant topic in music information retrieval(MIR) community. However, traditional studies on high-level characteristics of singing voice have faced limitations in modelling the complicated space of it mainly because of the multifaceted nature of music and lack of vocal-specific data. Recent advent of deep learning techniques and its application in MIR brought possibility to obtain complicated information in a robust representation and also need of extensive data. This dissertation aims to cover almost the entire process of deep learning research to prove the necessity of singing voice information and provide from foundations to practical applications for it. The research consists of three consecutive parts. The first part is mainly about the process of constructing a semantic tag dataset of K-pop songs, which focuses on singing voice. Since human feelings involve multiple levels of abstractions and complex cognitive process, it is necessary to build effective dataset that can represent qualitative characteristics of singing voice in a human-centered way. A popular approach is to use semantic notations, or tags to describe the complicated information of music. Previous music tag data do not provide extensive vocal-specific labels of commercial songs. The presented dataset has a few notable advantages for singing voice research. Its tags are regarding vocal characteristics and it was explicitly noted while labeling. Its labels are about 10-second-long segments to capture temporal variance. The tags and artists are collected from professional vocal reviews and selected by experts. The dataset, to our knowledge, is the first and only extensive dataset which focuses on singing voice. Its appropriateness and advantages have been proved with following analysis and experiments. Statistical analysis of the dataset and tag prediction tests with deep neural networks(DNN) model is presented second. This part aimed to reveal sanity, propriety, and other significant properties of the dataset. Through the statistic analysis, global statistics such as frequency and agreement as well as within-song characteristics such as temporal activation and intra-song frequency were calculated to discover the static and dynamic aspects of each tag. After the analysis, DNN models are trained to predict activation of the tags from audio input. Results from the tests show that the characteristics of singing voice can be learned using deep learning technique. The properties found from the tests conform with the results of the previous analysis and human understandings of the tags. Possible applications of the dataset and model are suggested as well. The third part presents a more profound exploration on deep representation of music with vocal information. Deep representation is a machine learning method that constructs a generalized representation that contains essential information of specific data domain by training a highly-complicated model with massive amount of data. Studies on deep representation in MIR are currently at an emerging stage and recent research suggest that the general representations may fail to contain the multifaceted nature of music such as delicateness of singing voice over overall musical information. Three novel and readily applicable ideas to augment singing voice information to deep music representations are proposed and applied to deep representations developed using deep metric learning. They were tested with two different target tasks. The results show that the suggested techniques can enhance the music representations in vocal related target tasks. This dissertation takes a holistic approach to applications of modern machine learning methods to the qualitative characteristics of singing voice. It reveals the value of singing voice research and prospects of its applications as well as providing the fundamentals to related research. It takes both of human-centered and data-driven approaches by building semantic dataset and exploring deep representations. From the result, it is shown that the characteristics of singing voice can be modeled using deep learning methods and improved by the suggested techniques.

인류에게 목소리는 줄곧 가장 중요한 악기의 위치를 차지해왔다. 목소리를 이용해 노래하고 또 그것을 듣는 능력이 특별히 발전되어왔기 때문에, 보컬은 복잡하고 미묘한 느낌을 전달할 수 있다는 장점을 기반으로 대부분의 음악 장르, 특히 대중 음악에서 가장 중요한 요소로 손꼽히게 되었다. 따라서 목소리는 음악 정보 추출 분야에서도 중요한 연구 주제로 다뤄지고 있다. 그러나, 음악이 가지는 다면적인 특징과 보컬에 특정적인 데이터의 부족으로 인해 보컬에 대한 고차원적인 특징에 대한 전통적인 연구는 그 복잡한 관계를 모델링하는데에 어려움을 겪어왔다. 최근 딥 러닝 기술이 음악 정보 추출 분야에서 적용되기 시작하면서 이러한 복잡성을 처리할 수 있는 가능성과 함께 충분한 데이터의 필요성이 대두되었다. 이 학위논문은 딥 러닝 연구의 전반적인 과정을 다루면서 노래 목소리에 관한 정보의 필요성을 보이고 관련한 연구를 위한 기반에서부터 보다 실제적인 활용에 이르기까지 제시하는 것을 목표로 하고 있다. 이 연구는 크게 세 부분으로 이루어진다. 첫 번째로는 음악에서 보컬에 관한 의미론적 태그 데이터를 구축하는 과정에 대해 다룬다. 사람이 노래 목소리에서 느끼게 되는 심상은 다단계의 추상화와 복잡한 인지적 과정을 거쳐 얻어지기 때문에 이에 대한 데이터를 효과적으로 모으고 구성하기 위한 방법이 필요하다. 이 때, 심상의 의미론적 표기 또는 태그라고 불리는 방법을 통해 음악에 대한 복잡한 정보를 사람에게 친숙하면서도 정량적인 방법으로 기술할 수 있다. 기존의 음악 태그 데이터는 보컬과 관련한 정보를 주요하게 다루지 않았거나 우리가 일상적으로 듣는, 상업적으로 발표된 곡들에 대한 것이 아니었다. 이 연구에서 제시하는 데이터는 특별히 노래 목소리에 관한 연구에 맞춰 제작되었다. 먼저, 데이터의 태그들은 모두 노래 목소리에 관한 것이며 평가시에도 이를 명시했다. 각 태그에 대한 평가는 10초 길이의 음원에 대해 이루어졌기 때문에 시간에 따른 변화를 담을 수 있었다. 또한 태그와 가수는 전문적인 보컬 리뷰에서 수집한 수후 전문가들에 의해 선별하는 과정을 거쳐 선택되었다. 이를 통해 얻어진 데이터는 지금까지 알려진 바로는 유일하게 목소리에 집중해 수집된 규모 있는 태그 데이터이며 이어지는 분석과 실험을 통해 그 정합성과 유용성을 확인할 수 있었다. 두 번째로는 제작된 데이터의 통계적 분석과 심층 신경망 모델을 이용한 태그 예측 실험을 진행했다. 이를 통해 데이터가 올바른지, 목적에 적합한지, 어떤 중요한 특징을 가지고 있는지 분석하고자 했다. 통계 분석에서는 태그의 빈도와 의견의 일치도 등을 분석해 전체적인 데이터셋의 특징을 확인하고, 곡 내에서의 변화를 확인할 수 있는 측정치들을 정의하고 실제 각 태그들이 어떤 양상을 보이는지 살펴보았다. 태그 예측 실험에서는 딥 러닝 모델을 이용해 노래를 입력으로 받아 각 태그의 활성화 정도를 예측하는 모델을 학습시키고 그 결과를 확인했다. 이를 통해 딥 러닝 모델을 이용해 목소리의 특징을 파악할 수 있다는 것과, 이를 위해 목소리를 위한 데이터셋이 필요하다는 것을 검증했다. 또한 사람이 인식하는 각 태그의 특징, 통계적 분석에서 발견된 특징, 모델이 학습하고 예측한 결과를 통해 파악한 특징이 서로 상응하는 것을 알 수 있었다. 마지막으로 학습시킨 예측 모델을 활용할 수 있는 예시들도 같이 제시했다. 마지막 부분에서는 앞선 연구의 결과를 더 발전시켜 음악에 관한 심층 표현 공간에 목소리 정보를 추가하는 문제에 대해 다룬다. 심층 표현은 방대한 양의 데이터와 매우 복잡한 모델을 이용해 어떤 분야에 대한 전반적이고 일반화된 지식을 학습시키는 기계 학습 방식이다. 음악 정보 추출 분야에서 심층 표현에 대한 연구는 아직 기초적인 단계로, 기존에 제시되었던 방식으로는 목소리의 미묘하면서도 다면적인 특징이 배경 음악 정보에 의해 심층 표현에 잘 담기지 않을 수 있다. 이에 이 연구에서는 세가지의 독창적이면서도 간단히 적용 가능한 방안 통해 노래 목소리 정보를 심층 음악 정보 표현에 증강시킬 수 있는 방법을 제시하고, 이를 반영해 심층 거리 학습을 이용한 심층 표현을 만들었다. 두가지 실험을 통해 제시된 방안이 실제로 목소리와 관련된 작업에서 성능을 향상시킴을 알 수 있었다. 이 학위 연구는 노래 목소리의 정성적인 특징을 보다 현대적인 기계 학습 방법론으로 다루는 것에 관해 총체적인 관점에서 다루며, 이를 통해 노래 목소리의 연구 가치 및 활용 가능성을 확인함과 동시에 앞으로의 관련된 연구를 위한 기반을 마련했다. 의미론적 데이터를 이용한 인간 중심적 접근과 심층 표현을 이용한 데이터 기반 접근을 모두 수행하여 딥 러닝 방법론으로 노래 목소리의 특징이 분석될 수 있음을 보여주고, 더 나은 결과를 얻을 수 있는 방법을 제안했다.


청구기호 {DGCT 21001
형태사항 iv, 76 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김근형
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
수록잡지명 : "Semantic Tagging of Singing Voices in Popular Music Recordings.". IEEE/ACM Transactionson Audio, Speech and Language Processing, v.28, pp.1656-1668(2020)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 61-74





