서지주요정보
Drum sample retrieval from mixed audio via a joint embedding space of mixed and single audio samples = 혼합 및 단일 오디오 샘플의 조인트 임베딩을 통한 혼합 오디오의 드럼 샘플 검색
서명 / 저자 Drum sample retrieval from mixed audio via a joint embedding space of mixed and single audio samples = 혼합 및 단일 오디오 샘플의 조인트 임베딩을 통한 혼합 오디오의 드럼 샘플 검색 / Wonil Kim.
저자명 Kim, Wonil ; 김원일
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035855

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MGCT 20002

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

As the development of digital audio processing has popularized the technology of making music easily, sample-based music creation has become a mainstream practice. One of the key tasks in the sample-based approach is to search desired instrument samples in the large collections. However, most commercial sample packages described the samples using metadata, making it difficult to intuitively imagine the sound without listening to it. Inspired by music producers who often find instrument samples with a reference song, we set up a query-by-example scheme that takes mixed audio as a query and retrieves single audio samples. Our method is based on deep metric learning where a triplet neural network is trained to have single audio samples and their mixtures with other instruments closely located in the embedding space. We also suggest a method to generate mixed audio to build the dataset. As a result, we observe the performance difference according to the learning method, the model configuration, and the learning input types to find the best model for retrieving single audio in mixed audio. The results show that our model achieves promising retrieval performance in the query-by-example task. We also ensure the operation of the neural network by visualizing both single and mixed audio samples in the embedding space.

디지털 오디오 프로세싱의 비약적인 발전으로 음악을 쉽게 창작할 수 있는 기술이 대중화되면서 오디오 샘플 기반의 음악 창작 방식이 주류 창작 기술로 떠오르고 있다. 이 샘플 기반 음악 창작의 가장 중요한 작업은 대규모의 데이터 셋에서 적절한 오디오 샘플을 검색하는 것이다. 그러나 시중에서 판매되는 오디오 샘플은 대부분 메타 데이터를 통해 오디오의 특징을 나타내기 때문에 직관적으로 사운드를 식별하는 것은 매우 어렵다. 본 논문에서는 사용자가 원하는 오디오 샘플을 검색하거나 추천하는 시스템에 사용될 수 있는 모델의 학습 방법을 소개한다. 우리는 작곡가들이 자신이 생각하는 이상적인 느낌의 곡을 레퍼런스로 선택하고 이를 자신이 가진 샘플 오디오 집단과 비교 청취하며 샘플을 찾는 것에 영감을 받아, 혼합 오디오를 쿼리로 단일 오디오 샘플을 검색하는 예시 질의 방식을 실험에 적용했다. 특히 여러 악기가 혼합된 오디오에서부터 사용된 킥과 스네어 오디오 샘플을 찾을 수 있도록 다량의 데이터를 인공적으로 생성하고, 양의 관계를 가지는 혼합오디오와 단일오디오 쌍을 임베딩공간에서 밀접하게 학습하는 딥 메트릭 학습법을 사용해 모델을 학습했다. 결과적으로 학습 방법에 따른 성능 차이와 모델 구성에 따른 성능 차이, 학습 인풋 종류에 따른 성능의 변화를 관찰하고 혼합 오디오에서 단일 오디오를 검색하기 위한 최적의 모델을 제시했다. 해당 모델을 사용하면 실제 곡에서도 동일한 오디오 샘플이나 유사한 오디오 샘플을 검색할 수 있음을 확인했다. 마지막으로, 임베딩 공간에서 단일 및 혼합 오디오 샘플을 시각화하여 신경망의 성능을 시각적으로 검증했다.

서지기타정보

서지기타정보
청구기호 {MGCT 20002
형태사항 iv, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김원일
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 25-27
주제 Representation learning
Metric learning
Music information retrieval
Data generation
Convolutional neural networks
query-by-example
표현 학습
메트릭 학습
음악 정보 검색
데이터 생성
회선 신경망
예시 질의
QR CODE qr code