한국과학기술원 도서관

서지주요정보
Direction of arrival estimation utilizing deep neural networks with dual channel microphones under noise environment = 인공신경망을 이용한 소음 환경에서의 듀얼 채널 기반 음성 위치 추정 기법
서명 / 저자	Direction of arrival estimation utilizing deep neural networks with dual channel microphones under noise environment = 인공신경망을 이용한 소음 환경에서의 듀얼 채널 기반 음성 위치 추정 기법 / Junhyeok Lee.
발행사항	[대전 : 한국과학기술원, 2020].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8035954

소장위치/청구기호

학술문화관(문화관) 보존서고

MME 20050

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Under noise condition, it is hard to estimate accurate direction of arrival(DOA). In this research, a deep neural network(DNN) is applied to improve accuracy and noise robustness. In addition, this work utilizes dual channel microphones with short interval and fan noises from drone are regarded as the noise source. This work includes random data generation, feature extraction, data augmentation, network selection and label smoothing for sound localization(DOA estimation). To solve data deficiency problem, data generation and augmentation for DOA estimation are suggested. Previous works applied DNN to DOA estimation utilized only signal processed data set to train network. This paper is including results of signal processed data set and recorded data set. To solve data deficiency issue in deep learning research, this work suggested data augmentation fit to DOA estimation problems, such as flipping, phase rotation, masking, noise addition. In addition, special label smoothings for localization are suggested to minimizing angular error. In conclusion, it shows 100% accuracy for clear data set, and achieved 61% accuracy for low SNR data set(-34 dB).

본 논문에서는 소음 환경에서의 방향 추정을 위해 소음 환경에서도 강건한 인공신경망을 학습하는 것을 목표로 삼는다. 좁은 간격의 듀얼 채널 시스템에서 드론 소음을 타겟으로 연구를 진행하였다. 본 연구는 방향추정을 위한 데이터 베이스 생성과정, 데이터 증강, 네트워크 선택 그리고 레이블 스무딩 과정을 포함한다. 대부분의 인공신경망을 사용한 논문들은 신호 처리를 이용하여 생성한 데이터 셋을 사용하여 학습을 시켰으나, 본 논문에서는 신호 처리로 생성한 데이터 셋과 녹음한 데이터 셋 모두 사용한다. 또한 본 논문에서는 데이터 부족을 해결하기 위해 방향 추정에 알맞는 데이터 증강 과정을 제시한다. 기존의 이미지 분류의 기법을 그대로 적용할 수 없으므로 오디오, 특히 방향추정을 위한 좌우반전, 노이즈 추가, 마스킹, 페이즈 회전 등의 데이터 증강 기법을 연구하였다. 또한 그 동안의 인공신경망을 사용한 논문들은 간단한 신경망 구조를 활용하였으나 본 논문에서는 이미지 분류에서 높은 정확도를 보이는 모델들을 조합하여 음성 방향 추정에 적합한 구조를 제시하였다. 분류 문제에서 자주 볼 수 있는 과신뢰 문제를 방향추정에 적합한 레이블 스무딩을 제시하여 정확도를 높이고 각도 오차를 줄였다. 본 논문에서 제시한 과정들로 인하여 노이즈가 없는 데이터 셋에 대해서 100%에 높은 정확도를 성취하였으며 노이즈가 큰 데이터 셋의 경우에는 61%의 정확도를 달성하였다.

서지기타정보

서지기타정보
청구기호	{MME 20050
형태사항	iv, 28 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 이준혁 지도교수의 영문표기 : Yong-Hwa Park 지도교수의 한글표기 : 박용화
학위논문	학위논문(석사) - 한국과학기술원 : 기계공학과,
서지주기	References : p. 25-26

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서