서지주요정보
Neural vocoder feature estimation for singing voice extraction = 가창음원 분리를 위한 뉴럴 보코더 특징 예측
서명 / 저자 Neural vocoder feature estimation for singing voice extraction = 가창음원 분리를 위한 뉴럴 보코더 특징 예측 / JaeKwon Im.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038874

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MGCT 22003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Singing voice separation is the task of separating a singing voice from music . Recently, a method of generating singing voice masks using a deep learning model has been widely used, but there is a limitation in that the size of the data to be predicted is large and the reusability is poor because the spatial effect is not separated. To solve this problem, a singing voice separation method using the world vocoder was proposed, but there was a limit that the sound quality could not exceed the quality generated by the world vocoder. In this paper, we propose a singing voice separation method using a neural vocoder. A neural vocoder is a deep learning model that synthesizes voices from small-dimensional data and can generate a higher-quality voice than the world vocoder. We used a neural vocoder that takes a mel spectrogram as input. Using this, we were able to divide the singing voice separation process into a generation part and a separation part. In addition, we propose two learning methods using a voice presence. The first method is to improve the performance of the singing voice separation model by combining the voice classification model. The second method is to use voice presence data for training data so that the model can learn the characteristics of the singing voice. It was confirmed through objective evaluation that both methods were effective methods. In addition, we confirmed that our system performed higher in the objective evaluation than the singing voice separation system using the world vocoder.

가창 음원 분리는 모든 악기 소리가 합쳐져 있는 믹스 음원으로부터 가창 음원을 분리하는 태스크이다. 최근에는 인공지능 모델을 사용해 가창 음원 마스크를 생성하는 방식이 많이 사용되고 있지만 예측해야 할 데이터의 크기가 크고 공간계 이펙트를 분리하지 않아 재사용성이 떨어진다는 한계가 있다. 이러한 문제를 해결하기 위해 World 보코더를 활용한 가창 음원 분리 방식이 제안되었지만 음질이 World 보코더의 생성 퀄리티를 넘을 수 없다는 한계가 있었다. 본 논문에서는 뉴럴 보코더를 사용한 가창 음원 분리 방식을 제안한다. 뉴럴 보코더는 적은 차원의 데이터로부터 목소리를 합성하는 인공지능 모델로서, World 보코더보다 높은 음질의 목소리를 생성해낼 수 있다. 우리는 멜 스펙트로그램을 입력으로써 사용하는 뉴럴 보코더를 사용하였다. 이를 활용해 우리는 가창 음원 분리 과정을 생성과 분리를 하는 인공지능 모델로 나눌 수 있었다. 또한 우리는 음성의 존재 여부를 활용한 두 가지 학습 방식을 제안한다. 첫 번째 방법은 음성분류를 위한 인공지능 모델을 가창 음원 분리 모델과 결합하여 가창 음원 분리 모델의 성능을 높이는 방법이다. 두 번째 방법은 이를 데이터에 활용하여 인공지능 모델이 가창 음원의 특성을 학습 할 수 있도록 하는 방법이다. 두 가지 방법 모두 유효한 방법인 것이 정량적 평가를 통해 확인되었다. 또한, 우리는 우리의 시스템이 World 보코더를 활용한 가창 음원 분리 시스템보다 정량적 평가에서 높은 성능을 내는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MGCT 22003
형태사항 iv, 29 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 임재권
지도교수의 영문표기 : Ju Han Nam
지도교수의 한글표기 : 남주한
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 26-27
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서