서지주요정보
Binaural sound event localization and detection neural network based on HRTF localization cues for humanoid robots = 인간형 로봇을 위한 머리전달함수 정위 단서 기반의 두 귀의 소리 사건 정위 및 감지 신경망
서명 / 저자 Binaural sound event localization and detection neural network based on HRTF localization cues for humanoid robots = 인간형 로봇을 위한 머리전달함수 정위 단서 기반의 두 귀의 소리 사건 정위 및 감지 신경망 / Gyeong-Tae Lee.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042415

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DME 24003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In order for a humanoid robot to recognize the situation through sound, it must simultaneously estimate the type and direction of surrounding sound events. Also, to be applied to hearing aids or human-robot interaction technologies such as telepresence, it is necessary to be implemented with two-channel input like a human. However, with horizontal two-channel input, it is difficult to estimate the elevation of sound event, and front-back confusion occurs when estimating the azimuth. To solve this problem, binaural sound event localization and detection (BiSELD) neural network is proposed, which can simultaneously estimate the class and direction of each sound event by learning the time-frequency pattern and head-related transfer function (HRTF) localization cues of sound event from a binaural input feature. For learning, HRTFs were measured by establishing clear standards for origin transfer function measurement and non-causality compensation, and binaural dataset was constructed by synthesizing the measured HRTFs with collected sound event databases. In particular, based on the analysis of HRTF localization cues, binaural time-frequency feature (BTFF) was proposed as the input feature for BiSELDnet. A BTFF consists of eight-channel feature maps: left and right mel-spectrograms; left and right V-maps showing the time change rate of each frequency component; ITD-map estimating interaural time difference (ITD) below 1.5 kHz; ILD-map representing interaural level difference (ILD) above 5 kHz with front-back asymmetry as a clue to solve the front-back confusion; and left and right SC-maps providing spectral cue (SC) above 5 kHz for the elevation estimation of sound event. The effectiveness of BTFF was confirmed by evaluating its detection and localization performance for sound events coming from omnidirectional, horizontal, and median planes. Using BTFF as input feature, a variety of BiSELDnets were implemented that output a time series of direction vectors for each sound event class. The magnitude and direction of each vector represent the activity and direction of the corresponding sound event class, allowing simultaneous detection and localization of sound events. Among them, BiSELDnet based on Trinity module, which has the best performance with a small number of parameters, was selected. Based on depthwise separable convolution, which is suitable for BTFF with low cross-channel correlation, Trinity module is implemented by factorizing each of the three concatenated kernels of size 3×3, 5×5, and 7×7 into kernels of size 3×3. It has the advantage of simultaneously extracting feature maps of various sizes from its input feature with a small number of parameters. In addition, vector activation map (VAM) visualization was proposed to visualize what BiSELDnet learned and check which parts of input feature contribute to the final decision of detection and localization. Through VAM visualization, it is confirmed that BiSELDnet focuses on the N1 notch frequency for the elevation estimation of sound event. Finally, the detection and localization performances of BiSELD model and state-of-the-art (SOTA) SELD model were compared for sound events in the horizontal or median plane under urban background noise conditions with various signal-to-noise ratios. The comparison results demonstrate that the proposed BiSELD model performs better than the existing SOTA SELD model under binaural input conditions.

인간형 로봇이 소리를 통해 상황을 인식하기 위해서는 주변 소리 사건의 종류 및 방향을 동시에 추정해야 한다. 또한 보청기나 원격현장감과 같은 인간-로봇 상호작용 기술에 적용하려면 인간과 같은 2채널 입력으로 구현할 필요가 있다. 그러나 수평 배열의 2채널 입력으로는 고도각 추정이 어려우며, 방위각 추정시 앞뒤 혼동이 발생한다. 이를 해결하기 위해, 두 귀 입력 특징에서 소리 사건의 시간-주파수 패턴 및 머리전달함수 정위 단서를 학습하여, 각 소리 사건의 종류 및 방향을 동시에 추정할 수 있는 두 귀의 소리 사건 정위 및 감지(binaural sound event localization and detection, BiSELD) 신경망을 제안한다. 학습을 위해 원점전달함수 측정 및 비인과성 보상에 관한 명확한 기준을 세워 머리전달함수를 측정하였고, 이를 수집한 소리 사건 데이터베이스와 합성하여 두 귀의 데이터셋을 구축하였다. 특히, 머리전달함수 정위 단서의 분석을 기반으로 BiSELDnet의 입력 특징으로 두 귀의 시간-주파수 특징(binaural time-frequency feature, BTFF)을 제안하였다. BTFF는 좌우 mel-spectrogram, 각 주파수 성분의 시간 변화율을 나타내는 좌우 V-map, 이간 시차를 추정하는 ITD-map, 앞뒤 혼동 해결의 단서로서 이간 음량차를 나타내는 ILD-map, 그리고 고도각 추정을 위한 스펙트럼 단서를 제공하는 좌우 SC-map 등 총 8채널의 특징맵으로 구성된다. 전방향, 수평면 그리고 정중면의 소리 사건에 대한 BTFF의 감지 및 정위 성능을 평가한 결과 그 효과를 확인하였다. 입력된 BTFF를 학습하여 각 소리 사건의 종류 별로 방향 벡터의 시계열을 출력하는 다양한 BiSELDnet을 구현하였으며, 이중 파라미터 수가 작고 성능이 가장 우수한 삼일체 모듈에 기반한 BiSELDnet을 선정하였다. 삼일체 모듈은 채널 간 상관관계가 낮은 BTFF의 학습에 적합한 깊이별 분리 합성곱을 기반으로 3×3, 5×5, 7×7 크기의 세 커널을 각각 3×3 크기의 커널로 인수분해하여 연결한 모듈로서 다양한 크기의 특징맵을 동시에 추출할 수 있는 장점이 있다. 또한, BiSELDnet이 학습한 것을 시각화하고, 입력 특징의 어느 부분이 감지 및 정위의 최종 결정에 기여하는지 확인하기 위해 벡터 활성화 맵 시각화를 제안하였다. 이를 통해 BiSELDnet이 소리 사건의 고도각 추정을 위해 N1 홈 주파수에 주목하는 것을 확인하였다. 마지막으로, 다양한 신호 대 잡음비의 도시 배경소음조건에서 수평면 또는 정중면의 소리 사건에 대해 BiSELD 모델과 최신 SELD 모델의 감지 및 정위 성능을 비교하였다. 비교 결과, 두 귀의 입력 조건에서 제안된 BiSELD 모델이 기존의 최신 SELD 모델 보다 성능이 우수함을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DME 24003
형태사항 xii, 179 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이경태
지도교수의 영문표기 : Yong-Hwa Park
지도교수의 한글표기 : 박용화
수록잡지명 : "Deep learning based cough detection camera using enhanced features". Expert Systems With Applications, v.206, pp.1–20(2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 152-165
주제 Humanoid robot
Binaural sound event localization and detection (BiSELD)
Head-related transfer function (HRTF)
Binaural time-frequency feature (BTFF)
Trinity module
Depthwise separable convolution
Vector activation map (VAM)
인간형 로봇
두 귀의 소리 사건 정위 및 감지
머리전달함수
두 귀의 시간-주파수 특징
삼일체 모듈
깊이별 분리 합성곱
벡터 활성화 맵
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서