서지주요정보
Zero-shot learning for audio-based music classification and tagging = 오디오 기반 음악 자동 태깅 및 분류를 위한 제로샷 학습 모델에 대한 연구
서명 / 저자 Zero-shot learning for audio-based music classification and tagging = 오디오 기반 음악 자동 태깅 및 분류를 위한 제로샷 학습 모델에 대한 연구 / Jeong Choi.
저자명 Choi, Jeong ; 최정
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035859

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MGCT 20006

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Audio-based music classification and tagging is typically based on categorical supervised learning with a fixed set of labels. This intrinsically cannot handle unseen labels such as newly added music genres or semantic words that users arbitrarily choose for music retrieval. Zero-shot learning can address this problem by leveraging an additional semantic space of labels where side information about the labels is used to unveil the relationship between each other. In this work, we investigate the zero-shot learning in the music domain and organize two different setups of side information. One is using human-labeled attribute information based on Free Music Archive and OpenMIC-2018 datasets. The other is using general word semantic information based on Million Song Dataset and Last.fm tag annotations. Considering a music track is usually multi-labeled in music classification and tagging datasets, we also propose a data split scheme and associated evaluation settings for the multi-label zero-shot learning. We report experimental results to show that the zero-shot learning model is effective in both annotation and retrieval tasks for music. We further verify the generalization ability of zero-shot learning model by conducting knowledge transfer to different music corpora. We finally discuss the new possibilities of zero-shot learning in the music domain.

오디오 기반 음악 분류문제에 관한 연구는 한정된 카테고리 안에서 선택하는 지도 학습 방법으로 이루어져 왔다. 이는 새롭게 생겨나는 장르나 단어에 대해 대응하지 못하는 한계점을 지닌다. 제로샷 러닝 모델은 레이블 들간의 관계를 반영하는 의미론적 공간을 오디오와의 통합 임베딩 공간으로 맵핑함으로써 이같은 한계에서벗어날 수 있다. 이 논문은 음악 자동분류 문제에 제로샷러닝 패러다임을 적용하기 위해 두가지 레이블 임베딩 스페이스를 정의하고 이를 활용한 결과를 보고한다. 또한 이 과정에서 멀티 레이블 제로샷 러닝 실험을 위한 더 나은 데이터 스플릿 방법론을 제시한다. 나아가 한 데이터셋에서 학습된 제로샷 임베딩을 여러 데이터 셋에서 평가하여 일반화 성능을 검증하고자 한다.

서지기타정보

서지기타정보
청구기호 {MGCT 20006
형태사항 iii, 24 : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최정
지도교수의 영문표기 : Juhan Nam
지도교수의 한글표기 : 남주한
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 19-22
주제 Audio-based music classification
Zero-shot learning
Knowledge transfer
오디오기반음악분류
제로샷러닝
QR CODE qr code