서지주요정보
어텐션과 합성곱 오디오 분리망을 이용한 엔드투엔드 다채널 음향 향상 기법 = End-to-end multi-channel sound enhancement using attention and Conv-TasNet
서명 / 저자 어텐션과 합성곱 오디오 분리망을 이용한 엔드투엔드 다채널 음향 향상 기법 = End-to-end multi-channel sound enhancement using attention and Conv-TasNet / 오형민.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037189

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21053

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With its successful application in various fields, deep learning for sound enhancement has gained significant attention. The state-of-the-art deep neural network methods use end-to-end learning to estimate a clean signal from a noisy signal input in time-domain. A fully convolutional network is also being employed to create an efficient model with a small parameter size. Recently, Conv-TasNet (fully convolutional time-domain audio separation network), which uses end-to-end learning and fully convolutional networks, has demonstrated successful performance in a single-channel sound separation task. This study extends Conv-TasNet to multi-channel models with an attention mechanism for the sound enhancement task. The dataset synthesized through simulations based on the FSD50k dataset contains various types of sound sources. The multi-channel models modified for the 10-channel sound signals show the significantly improved performance compared to the baseline Conv-TasNet and beamforming technique. Also, Attention mechanism introduced in the multi-channel model further increases the denoising performance.

최근 심층학습(deep learning)이 다양한 분야에서 성공적으로 적용되면서 잡음 제거를 위한 심층신경망이 큰 주목을 받고 있다. 최신 심층신경망 기법은 잡음이 포함된 시간 영역 신호 입력을 이용해 잡음이 제거된 시간 영역 신호를 추정하는 엔드투엔드(end-to-end) 학습을 이용한다. 또한 완전 합성곱 신경망(fully convolutional network)을 사용하여 파라미터 사이즈가 작은 효율적인 모델을 만들기 위한 연구가 이루어지고 있다. 최근, Conv-TasNet (fully convolutional time-domain audio separation network)은 엔드투엔드 학습과 완전 합성곱 신경망을 이용하여 단일 채널 음향 신호 분리에서 성공적인 성과를 거뒀다. 본 연구는 Conv-TasNet을 잡음 제거를 위한 다채널 모델로 확장하고, 어텐션(attention) 기법의 영향을 실험하였다. FSD50k 데이터 셋을 기반으로 시뮬레이션을 통해 데이터 셋을 합성하였고, 합성된 데이터 셋은 다양한 종류의 음원을 포함하고 있다. 10채널 음향 신호에 대해 변형된 다채널 모델을 적용한 결과, 기초 모델(baseline)인 Conv-TasNet과 빔 형성 기법보다 잡음 제거 성능이 크게 향상되었으며, 어텐션 기법 사용으로 인한 잡음 제거 성능 향상을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 21053
형태사항 iv, 50 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Hyeong-Min Oh
지도교수의 한글표기 : 최정우
지도교수의 영문표기 : Jung-Woo Choi
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 43-48
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서