서지주요정보
Learnable gammatone filterbank and energy normalized gated convolutional network for environmental sound classification = 환경음 인식을 위한 학습가능 감마톤 필터뱅크 및 에너지 정규화된 게이티드 컨볼루셔널 신경망 연구
서명 / 저자 Learnable gammatone filterbank and energy normalized gated convolutional network for environmental sound classification = 환경음 인식을 위한 학습가능 감마톤 필터뱅크 및 에너지 정규화된 게이티드 컨볼루셔널 신경망 연구 / Hyunsin Park.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8034700

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19052

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation considers a deep neural network architecture based on gammatone filterbank (GTFB) and gated convolutional neural networks (GCNN) for environmental sound classification (ESC). In previous ESC methods, 2D CNNs on time-frequency representation inputs have shown good performance. Specially, mel-frequency filterbank (MelFB) to reflect human auditory model is the most used time-frequency representation for environmental sounds. However, human auditory based processing may not be the most appropriate method for environmental sounds. In this dissertation, a learnable gammatone filterbank (LGTFB) layer is proposed to obtain time-frequency representation from raw waveform input. The LGTFB layer is a 1D convolutional layer with kernels based on bandpass gammatone filters that have been utilized to model auditory systems. Moreover, a normalization method based on a switchable normalization (SN) to improve generalization ability of the time-frequency representation obtained by LGTFB is introduced. In this dissertation, SN learns a weighted combination of instance normalization (IN) per frequency bin and local response normalization (LRN) methods. The proposed normalization method can learn good combination of the normalization methods to increase training accuracy. Finally, energy normalized gated CNN (ENGCNN) is proposed to extract feature from the LGTFB activation. The purpose of using gated architecture is to pass target sound feature and reduce surrounding sound features in time-frequency domain. However, we find that the gating map depends on the local input energy empirically. To reduce this dependency, an input energy is normalized to obtain gating function that does not depends on the input energy. To confirm the effectiveness of the considered architecture and normalization method, ESC experiments on ESC-50 and UrbanSound8K were conducted. The proposed model showed state-of-the-art results on the considered datasets. Moreover, ensemble model achieved more performance improvement.

본 논문은 환경음 인식을 위하여, 컨볼루셔널 신경망과 감마톤 필터뱅크에 기반한 깊은 신경망에 관해서 연구한 내용이다. 기존 환경음 인식 방법 중, 오디오의 시간-주파수 표현에 대한 2차원 컨볼루셔널 신경 망을 적용하는 방법이 좋은 성능을 보이고 있다. 특히 사람의 청각 모델을 반영한 멜주파수 필터뱅크(MelFB)가 널리 사용되고 좋은 성능을 보인다. 하지만 사람의 청각모델에 기반한 입력 신호의 처리가 환경음 인식을 위해 가장 좋은 방법으로 보기 힘들다. 본 논문에서는 입력 웨이브폼에서 시간-주파수 표현을 얻기위해 학습가능한 감마톤 필터뱅크(LGTFB)를 제안한다. 이는 기존에 일반적인 청각모델에 널리 사용되는 밴드패스 감마톤 필터에 기반한 커널들을 갖는 1차원 콘볼루션 레이어로 정의가 된다. 또한 LGTFB로 얻은 시간-주파수 표현에 대한 일반화 성능을 높이기 위한 정규화 방법을 제안한다. 이는 여러 정규화 방법의 선형결합을 학습하는 선택적 정규화 방법에 기반하는데, 본 논문에서는 객채 정규화(IN)와 로컬 응답 정규화(LRN)의 선형결합 정도가 환경음 인식 성능을 높이기 위해 학습된다. 마지막으로 에너지 정규화된 게이티드 컨볼루셔널 신경망(ENGCNN)이 LGTFB의 특징에서 상위레벨의 특징을 추출하기 위해 제안된다. 이는 시간주파수 도메인에서 타겟 소리의 특징만 살리고 관련없는 주변 소리의 특징을 줄이기 위해서 게이트 구조가 사용된다. 실험적으로 게이트 구조를 학습할 때 게이트 맵이 입력의 로컬 에너지에 크게 영향을 받는 점을 발견하여, 입력의 로컬 에너지를 구해 컨볼루션 출력에 나줘줌으로써 이러한 영향을 줄일 수 있었다. 제안하는 방법의 효과를 검증하기 위해 ESC-50과 UrbanSound8K 데이터셋에 대해서 환경음인식 실험을 수행하였고, 비교하는 방법들 중에서 가장 좋은 성능을 얻었다. 마지막으로 모델 앙상블을 통해 성능 향상을 더 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 19052
형태사항 v, 60 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박현신
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 52-57
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서