서지주요정보
Three-Dimensioinal sound source localization using Inter-Channel time difference trajectory = 채널간 시간차 궤적을 이용한 3차원 방향 검지 기법
서명 / 저자 Three-Dimensioinal sound source localization using Inter-Channel time difference trajectory = 채널간 시간차 궤적을 이용한 3차원 방향 검지 기법 / Sangmoon Lee.
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026844

소장위치/청구기호

학술문화관(문화관) 보존서고

DME 14024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This research addresses a three-dimensional sound source localization (3-D SSL) using the inter-channel time difference (ICTD) trajectory which is a new localization cue proposed in the research for mobile applications. To be an efficient 3-D SSL, as an attempt to decouple 3-D SSL into two disjoint azimuth and elevation angle estimations, the (source) directionand (microphone) position-dependent ICTD trajectory was realized by 2-channel rotating array installed on a spherical platform. The mathematical formula of the realized ICTD trajectory shows that the trajectory’s mean and phase shift are strongly related to the azimuth and elevation angles respectively in a form of one-to-one relation. Besides, the cone of confusion problem that has not been solved by the previous SSL methods using two microphones can be treated well. In addition, the probabilistic approach for 3-D SSL was investigated on the basis of the Bayesian inference. As a result, the inference-based SSL method was sufficiently well-adapted for the 3-D SSL method using ICTD trajectory: the prior probability of a source direction and a likelihood function of measured ICTD trajectory given possible source directions. In addition, the density-based spatial clustering of applications with noises was modified to cluster the measured ICTDs and reject the noisy ICTDs. By the simulation results, it was found that the SSL performance is strongly dependent on the azimuth angle only and it was quite reasonably interpretable by the trajectory’s amplitude: the left-sided sources can be estimated better than the right-sided sources considering the configuration of the 2-channel rotating array. In the realized system, the 2-channel rotating microphone array is composed of the wireless microphone system, the ultrasonic motor, and the encoder. To validate the proposed method, two experiments were conducted in the room environment: single source case using a Gaussian white noise and a male voice source; two source case using male and female speech sources. In a single source case using a Gaussian white noise source, the SSL performance for sources in the median plane was found as the mean error is 3.06° and the standard deviation is 1.42° and for source in the horizontal plane, the performance was that the mean error is 5.00° and the standard deviation is 3.83°. In the other experiment of involving a male voice, it was found that even the partially valuable ICTD trajectory can be also efficiently applicable to 3-D SSL. In twosource case, three different scenarios were considered and the experimental results demonstrated that in spite of the erratic time delays even involved in a cluster, only if the sinusoidal-varying trend of the clustered time delays is maintained, the 3-D SSL was possible with the success rate of 83.3% within ±20° error bound.

본 연구는 센서의 위치 변화에 의존적인 채널간 시간차 궤적을 이용한 3 차원 (음원) 방향 검지 기술에 관한 것으로 모바일 플랫폼에 적용하고자 하였다. 시스템 자원이 한정적인 상황에서 실시간 구현을 위해서는 효율적인 방향 검지 기법이 요구되며 이를 위하여 본 연구에서는 3 차원 상에 존재하는 음원의 방향을 수평각과 고도각으로 구분하였고 이들을 효과적으로 추정하기 위해서 2 채널 기반 회전형 마이크로폰 어레이에 의해 생성되는 채널간 시간차 궤적을 방향 검지 단서로 사용하였다. 기존 Ray-Tracing 방법을 3 차원 모델로 확장하여 제안된 채널간 시간차 궤적을 근사화하는데 사용하였으며, 이를 통해 음원의 수평각은 궤적의 평균값과 일대일 대응이 되며, 음원의 수평각은 궤적의 위상변화와 관련되는 것을 확인하였다. 따라서, 수학적인 모델을 통해 궤적의 추정함으로써 음원의 수평각과 고도각을 동시에 추정할 수 있는 것을 예상할 수 있다. 실제 환경에서의 적용을 위하여 검지 방법론으로서 추론 기법 중 하나인 Bayesian 기법을 사용하였다. 이 때, 음원 방향에 대한 사전 확률분포는 방위각을 정의할 때 사용된 양이간 극좌표계를 바탕으로 설계하였으며, 측정된 궤적에 기반한 음원 방향에 대한 가능성 확률분포는 음환경이 가지는 잔향정보를 바탕으로 정의되었다. 음원의 방향에 대한 최종 결정은 Posterior 확률분포가 최대값을 가지는 방향으로 정의하였다. 추가적으로, 궤적을 이루는 채널간 시간차들 중에서 noisy 한 데이터를 제거하기 위하여 density-based spatial clustering of applications with noises (DBSCAN) 을 적용하였다. 시뮬레이션 및 일반 룸에서의 실험 결과를 통해 단일한 white noise source 가 중앙면에 존재하는 경우, 평균 오차값은 3.06° 이며, 편차는 1.24° 로 확인되었으며 음원의 고도각의 변화에 따른 추정 성능 차이는 미비한 것을 확인할 수 있으며 음원이 수평면에 존재할 때에는 음원이 중앙면을 기준으로 왼쪽편에 존재할 때, 상대적으로 좋은 성능으로 검지되는 것을 확인할 수 있었다. 또한, 두 음원 즉, 남성, 여성 목소리가 존재하는 상황에서는 ±20° 오차 범위 내에서 83.3%의 검지 성공률을 확인하였다. 또한, 본 연구에서 제안한 검지 기법은 기존의 Steered Response Power (SRP) 기법보다 채널수의 비례해서 산량이 적을 것을 확인할 수 있으며 성능면에서는 신호 대 잡음비가 0dB 이하인 경우에 성능 저하가 발생하는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DME 14024
형태사항 xii. 126 : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이상문
지도교수의 영문표기 : Young-Jin Park
지도교수의 한글표기 : 박영진
수록잡지명 : "Estimation of multiple sound source directions using artificial robot ears". Applied Acoustics, v. 77, pp. 49-59(2014)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학전공,
서지주기 References : p. 119-126
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서