Machine learning research for sound event recognition has generally focused on audio classes with abundant data. In this work, we exploit hierarchical relationships between sound events in a few-shot learning setup to enable classification of a wider set of sound events, given just a few examples at inference. By iteratively calculating prototypes for each level according to a given hierarchy system, our network’s feature space is encouraged to mirror the predefined relationships between sound events. Compared to a non-hierarchical few-shot baseline, our method leads to a significant increase in classification accuracy and significant decrease in mistake severity on unseen classes. Our work also proposes a new audio label taxonomy with descriptive labels that reflect actual acoustic characteristics.
시각과 함께, 청각은 인간이 주변환경을 이해하는 데 필수적인 감각이다. 대부분은 경우, 소리는 여러 음원의 혼합물로써 제공되는 이러한 혼합물로부터 찾고자 하는 오디오를 감지해내는 인간의 청각을 기계에 대해 구현하는 작업 중 음향 사건 감지 문제가 있다. 하지만 일상적인 소리들이 다양하고 여러 배경음과 함께 겹쳐져 존재하는 만큼, 고품질의 음향기기로 수집된 단일한 오디오 샘플만으로 구성된 공개 데이터셋은 이미지 분야에 비해 양이 상대적으로 부족하다. 이용 가능한 오디오 데이터셋이 부족한 현상을 극복하기 위해, 본 논문에서는 기존에 구축된 환경음 데이터셋에 대해 퓨샷학습 적용 및 정제해낸 클래스 위계 정보를 활용하여 환경음을 분류하는 방안을 제시하였다. 또한, 악기와 환경음의 위계의 차이를 통해 퓨샷학습을 위한 효율적인 위계정보의 특성을 분석하였다.
본 논문은 환경음 분류를 위한 퓨샷 러닝에 대해 사운드 이벤트의 위계정보를 추가하였을 때의 성능 개선에 대한 분석을 다룬다. 퓨샷 러닝은 적은 학습 데이터이 주어진 상황에서 유용하며 작은 크기의 환경음 데이터셋에 대해 활용하기에 적합하다. 성능 개선을 위해 추가적인 학습 정보로써 사운드 이벤트에 대한 언어적인 위계구조를 활용하여, 하나의 라벨에 대한 예측을 하위개념과 상위개념에 대해 수행하는 손실함수를 사용하였다. 그 외에도 변형을 가한 위계구조들에 대해서도 실험하며 기계학습에 대하여 라벨링된 사운드 이벤트 라벨의 효용성을 분석하였다.