서지주요정보
다중 확장된 콘볼루션 신경망을 활용한 음성 검출기에 관한 연구 = Voice activity detection based on multi-dilated convolutional neural network
서명 / 저자 다중 확장된 콘볼루션 신경망을 활용한 음성 검출기에 관한 연구 = Voice activity detection based on multi-dilated convolutional neural network / 김재석.
저자명 김재석 ; Kim, Jae-Seok
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032048

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18029

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Voice activity detection (VAD) is important frontend of audio signal processing. VAD system classifies the speech signal into speech and non-speech. VAD is first step of most speech processing systems like speech communication, speaker recognition, and speech recognition and speech enhancement. Therefore, VAD system is required to have high performance with low computation cost. Modern VAD systems usually perform very well in high Signal to Noise Ratio (SNR), but they may be fail in low SNR scenarios. Contextual information (CI) is important for VAD systems. According to existing studies, employing various CI helps improving the performance of VAD system in low SNR environment. We presents to apply Convolutional neural networks (CNN) for exploiting CI. Because CNN can efficiently control the duration of CI with convolution filter. Convolution filters in CNN extract features from wide range of input signal depending on the filter size. CNN has limitations when utilizing long term CI. We can increase the size of the duration of CI by either increasing the size of the existing convolution filter or constructing an additional layer, but these methods need more parameters and computation cost. We apply the dilated convolution to utilize the long-term CI using few numbers of parameters. Dilated convolution expand the filter size maintaining numbers of parameters by configuring subsampled large filters. Since the speech signal has a high correlation between adjacent frames, it is effective to use subsampled input signal with applying dilated convolution. We propose multi-dilated convolution to employing multiple CI. The multi-Dilated convolution layer extracts features of multiple CI by consisting filters having different filter size. We used TIMIT dataset for the speech data. We used 'A sound effect library' and Noise-X for noise data. Experimental result show the VAD system applied multi-dilated convolution layer has higher average performance than reference systems

음성 검출은 음성 신호를 음성과 비음성 구간으로 분류하는 기법이다. 음성 검출은 음성 대화, 화자 인식, 그리고 음성 인식 과 같은 응용 음성 신호처리 분야의 첫 번 째 과정으로서 적은 계산 비용으로 높은 성능을 갖는 것이 요구된다. 음성 검출은 낮은 신호 대 잡음 비 환경에서 성능 저하가 발생하는데, 다양한 구간의 문맥 정보를 활용하여 성능을 개선할 수 있는 것이 기존의 연구들을 통해서 알려져 있다. 문맥 정보를 활용하기 위해서 CNN (Convolutional Neural Network)기반 음성 검출기를 구성한다. CNN은 활용하는 문맥 정보의 범위를 효율적으로 조절할 수 있지만 긴 구간의 문맥 정보를 활용할 때 계산 비용이 증가한다. CNN은 입력 신호로부터 특징을 추출하기 위한 콘볼루션 필터들을 구성한다. CNN이 활용하는 문맥 정보의 범위는 필터들 크기에 의해 결정된다. 긴 구간의 문맥 정보를 활용할 때, CNN은 필터의 크기나 수를 증가시킬 필요가 있고 이에 따라 파라미터 수가 증가하는 문제가 발생한다. 본 논문은 CNN이 긴 구간의 문맥 정보를 활용할 때 발생하는 계산 비용을 감소시키기 위해 확장된 콘볼루션(Dilated convolution)을 적용한다. 확장된 콘볼루션은 서브 샘플링이 적용된 큰 사이즈의 필터를 구성하는 기법이다. 음성 신호가 갖는 인접한 프레임 간의 높은 연관을 갖는 특징에 의해 확장된 콘볼루션을 필터에 적용하여 입력신호를 서브샘플하여 사용해도 성능 손실이 크게 발생하지 않는다. 본 연구는 계산 비용을 증가시키지 않으면서 다양한 구간의 문맥 정보를 활용하기 위해 다중 확장된 콘볼루션을 제안한다. 한 레이어의 확장된 콘볼루션 필터들을 각각 다른 크기의 필터로 구성하는 것으로 다양한 구간의 문맥 정보에서 특징을 추출하는 기법이다. 음성 데이터인 TIMIT 데이터 세트와 잡음 데이터 'A sound effect library'와 Noise-X 데이터 세트를 사용하였다. 실험 결과 다중 확장된 콘볼루션 레이어를 적용한 모델이 다른 비교 모델들 보다 높은 평균 성능을 갖는 것을 볼 수 있었다.

서지기타정보

서지기타정보
청구기호 {MEE 18029
형태사항 v, 46 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jae-Seok Kim
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Minsoo Hahn
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 42-44
주제 음성 검출
딥러닝
CNN
확장된 콘볼루션
문맥 정보
긴 구간 문맥 정보
Voice activity detection
deep neural network
Convolutional neural network
Dilated convolution
long-term contextual information
QR CODE qr code