Sound event detection is a task of recognizing sound event class and its corresponding onset and offset timestamps. It is fundamental and crucial task for auditory perception that auditory system can perform the task naturally. Organs inside auditory system process incoming sound in numerous temporal and spectral scale. Those processed information from preceding organs converges to auditory cortex and it is known to play a critical role in auditory perception. In this work, I applied auditory cortex neural response inspired method to sound event detection. Recently, performance of sound event detection has shown leap-up performance due to deep learning methods which demonstrate notable strength in pattern recognition. However, deep learning methods utilizes data leveraging methods and large models that lack not only interpretability but also understanding of acoustic and auditory domain. Therefore, the objective of this research is performance advancement and retaining interpretability by applying auditory cortex neural response inspired method.
Spectro-temporal receptive field is utilized for imitation of auditory cortex neural response. In auditory neuroscience domain, spectro-temporal receptive field is used for prediction of auditory neural response for arbitrary sound which comes into ears. Spectro-temporal receptive field represents auditory neural response characteristic and auditory neural response can be predicted by convolution of arbitrary sound spectrogram and spectro-temporal receptive field along time axis. Auditory cortex neuron responses actively to certain spectro-temporal modulation that spectro-temporal receptive field of auditory cortex reflects the spectro-temporal modulation selectivity property. Based on response characteristic of auditory cortex, I constructed idealized spectro-temporal receptive fields and utilize them as filters of convolutional layer in deep learning model. However, constructed filters have large shape that detailed time-frequency information cannot be captured through constructed spectro-temporal receptive fields. To tackle the limitation, I built two-branch structure that one branch captures various spectrotemporal modulation through spectro-temporal receptive field, and another branch captures detailed time-frequency information through normal convolutional layer kernels.
Additionally, I showed effectiveness of spectro-temporal receptive field on bioacoustic event detection task. A bioacoustic event retains plentiful spectro-temporal modulation that spectro-temporal receptive field would help to capture those event. A bioacoustic event detection is set to few-shot learning task that it is important to extract class representation given few examples. Spectro-temporal receptive field is fixed filter that it has further advantage to extract the information efficiently from few examples, showing higher performance than other models.
Lastly, I applied another human auditory system inspired feature which is cochleagram replacing melspectrogram. A performance using both feature shows similar trends and proposed model performs better than other models at both task and also when using both input feature which are melspectrogram and cochleagram. By so, I showed the effectiveness of extracting spectro-temporal modulation information by auditory cortex inspired method.
음향 이벤트 검출은 음향 이벤트의 종류 및 각 이벤트의 시작 시간과 종료 시간을 검출하는 작업이다. 이는 청각 인식에 있어서 기본적이면서도 중요한 작업으로, 청각계는 음향 이벤트 검출을 자연스럽게 수행한다. 청각계는 크게 주변부 및 중심 뉴런부로 구성되며, 청각계 내부의 각 기관들은 다양한 주파수 및 시간 영역에서 소리를 처리한다. 처리된 정보들은 뉴런 전기 신호를 통해 대뇌 내부의 청각 피질에 수렴하고, 이 청각 피질은 청각 인식에서 중추적인 역할을 차지한다. 따라서 본 연구에서는 청각 피질 뉴런 반응을 모사한 방법론을 음향 이벤트 검출에 적용하고자 한다. 최근 음향 이벤트 검출 분야에서는 패턴인식에 강점을 보이는 딥러닝 방법론을 사용하여 성능이 비약적으로 상승하였다. 하지만 딥러닝 방법론은 음향 및 청각에 대한 이해가 부족하며 해석하기 어렵다는 한계점을 지니고 있다. 따라서 청각 피질 반응 모사 방법론을 딥러닝 모델에 적용하여 음향 이벤트 검출의 성능을 높이고 딥러닝 모델의 해석 가능성을 확보하는 것이 본 연구의 목표이다.
청각 피질 뉴런 반응을 모사하기 위한 수단으로 스펙트럼-시간 수용 영역의 개념을 이용한다. 청각 신경과학 분야에서 스펙트럼-시간 수용 영역은 귀로 들어오는 임의의 소리에 대하여 청각 뉴런의 반응을 예측하는 데 사용된다. 스펙트럼-시간 수용 영역은 특정 청각 뉴런의 반응 특성을 나타내며, 임의의 소리 스펙트로그램과 스펙트럼-시간 수용 영역을 시간에 따라 합성곱하여 시간에 따른 청각 뉴런의 반응을 예측할 수 있다. 청각 피질 뉴런은 특정 스펙트럼-시간 변화에 활발하게 반응한다는 특징을 지니며, 이에 따라 청각 피질 뉴런의 반응 특성을 나타내는 청각 피질 스펙트럼-시간 수용 영역은 이러한 특정 스펙트럼-시간 변화를 포착할 수 있는 구조를 가지고 있다. 본 연구에서는 청각 피질 뉴런 반응 특징을 바탕으로 이상화된 스펙트럼-시간 수용 영역을 구축하고 딥러닝 모델 합성곱 층의 필터로 사용하였다. 하지만 필터로 사용된 스펙트럼-시간 수용 영역은 크기가 커 세부적인 시간-주파수 정보를 포착하지 못한다는 단점을 지닌다. 이에 딥러닝 모델을 두 갈래 구조로 구축하여 한 갈래는 스펙트럼-시간 수용 영역을 활용하여 특정 스펙트럼-시간 변화를 포착하게 하였으며, 나머지 갈래는 일반 합성곱 필터를 사용하여 세부적인 시간-주파수 정보를 포착하게 하였다. 두 갈래 구조 딥러닝 모델을 통하여 입력 신호에 대하여 다양한 정보를 추출함으로써 음향 이벤트 검출 작업 성능의 향상을 이루었다.
추가적으로, 스펙트럼-시간 수용 영역을 생물 음향 이벤트 검출 작업에 적용하였다. 생물 음향은 풍부한 스펙트럼-시간 변화를 보이는 특징을 지니기에 스펙트럼-시간 수용 영역은 생물음향을 포착하는 데 보다 효과적이다. 생물 음향 이벤트 검출 작업은 퓨샷러닝 작업으로 구성되어 있어 주어지는 몇 개의 예시를 통해 효과적으로 음향 이벤트 정보를 추출하는 것이 상당히 중요한데, 스펙트럼-시간 수용 영역은 학습이 아닌 미리 정해진 필터를 사용하여 적은 예시로부터 효과적으로 정보를 추출할 수 있다는 장점을 또한 지니고 있다. 이러한 장점을 바탕으로 생물음향 이벤트 검출에서도 다른 모델과 비교하여 높은 성능을 보였다.
마지막으로, 멜-스펙트로그램을 대신하여 인간 청각 기관을 모사한 코클리어그램을 딥러닝 모델 입력으로 적용하였다. 두 종류의 입력 사용 시에 성능은 서로 비슷한 양상을 보였다. 따라서 제안된 모델은 두 개의 작업 및 두 개의 입력에 관계없이 다른 모델과 비교하여 높은 성능을 보였으며 이를 통해 스펙트럼-시간 변화를 포착하는 청각 피질 모사 방법론의 효과성을 보였다.