Audio-based music classification and tagging is typically based on categorical supervised learning with a fixed set of labels. This intrinsically cannot handle unseen labels such as newly added music genres or semantic words that users arbitrarily choose for music retrieval. Zero-shot learning can address this problem by leveraging an additional semantic space of labels where side information about the labels is used to unveil the relationship between each other. In this work, we investigate the zero-shot learning in the music domain and organize two different setups of side information. One is using human-labeled attribute information based on Free Music Archive and OpenMIC-2018 datasets. The other is using general word semantic information based on Million Song Dataset and Last.fm tag annotations. Considering a music track is usually multi-labeled in music classification and tagging datasets, we also propose a data split scheme and associated evaluation settings for the multi-label zero-shot learning. We report experimental results to show that the zero-shot learning model is effective in both annotation and retrieval tasks for music. We further verify the generalization ability of zero-shot learning model by conducting knowledge transfer to different music corpora. We finally discuss the new possibilities of zero-shot learning in the music domain.
오디오 기반 음악 분류문제에 관한 연구는 한정된 카테고리 안에서 선택하는 지도 학습 방법으로 이루어져 왔다. 이는 새롭게 생겨나는 장르나 단어에 대해 대응하지 못하는 한계점을 지닌다. 제로샷 러닝 모델은 레이블 들간의 관계를 반영하는 의미론적 공간을 오디오와의 통합 임베딩 공간으로 맵핑함으로써 이같은 한계에서벗어날 수 있다. 이 논문은 음악 자동분류 문제에 제로샷러닝 패러다임을 적용하기 위해 두가지 레이블 임베딩 스페이스를 정의하고 이를 활용한 결과를 보고한다. 또한 이 과정에서 멀티 레이블 제로샷 러닝 실험을 위한 더 나은 데이터 스플릿 방법론을 제시한다. 나아가 한 데이터셋에서 학습된 제로샷 임베딩을 여러 데이터 셋에서 평가하여 일반화 성능을 검증하고자 한다.