서지주요정보
Spatial hearing algorithms based on binaural zero-crossings : sound source localization, segregation, and dereverberation = 영교차점에 기초한 공간 청각 알고리즘 : 음원 국지화, 분리 및 반향제거
서명 / 저자 Spatial hearing algorithms based on binaural zero-crossings : sound source localization, segregation, and dereverberation = 영교차점에 기초한 공간 청각 알고리즘 : 음원 국지화, 분리 및 반향제거 / Young-Ik Kim.
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018047

소장위치/청구기호

학술문화관(문화관) 보존서고

DMA 07005

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

This thesis concerns a new zero-crossing-based binaural model for spatial hearing. Conventional binaural model computes cross-correlations of binaural signals for the estimation of the interaural time difference which is a primary spatial cue. However, the cross-correlation-based binaural processing model requires high computational complexity and suffers from inaccuracies in localizing sound sources especially in a noisy multisource environment. The proposed model extracts two important binaural cues of interaural time difference (ITD) and interaural intensity difference (IID) on the basis of zero-crossing times and interval powers of filtered signal. This fundamental difference on binaural cue extraction gives great flexibility on designing spatial hearing algorithms. Another distinctive feature of our model is to estimate the signal-to-noise ratios (SNRs) of filtered signal using the variances of ITD sample, enabling us to perform noise-robust estimation of ITDs using the estimated SNRs. Using the zero-crossing-based binaural model, we developed three novel algorithms on spatial hearing: localization, segregation, and dereverberation. $\bullet$ Localization: On the histogram of ITD samples weighted by the estimated SNRs, multiple sound source directions are localized in noisy environments. In the experiments on noisy multisource environments, the proposed localization algorithm provided more accurate noise robust estimation of sound source directions compared conventional cross-correlation-based method. $\bullet$ Segregation: Using the locations of sound sources, we assigned each zero-crossing interval power to one of the sound source to estimate the target-to-interferers power ratio. Then two types of masks, binary and soft, derived from the estimated power ratios for the segregation and missing data recognition tasks. On both the speech segregation and recognition tests, our ratio mask showed superior results to the cross-correlation-based learned masking method. $\bullet$ Dereverberation: We modify the mask estimation procedure of our spatial hearing algorithm to overcome the reverberant conditions. Even though reverberations can distort directional information, each sound source has its own spectral characteristics. We utilize the target and interferers spectral histograms to obtain a ratio on the spectral overlap and combine it with the directional mask to solve the dereverberation problem. On various kind of reverberant room tests, the combined masking method greatly enhanced the speech recognition accuracy. As a result, the proposed spatial hearing algorithms based on binaural zero-crossings are able to provide an accurate estimate of multiple sound source directions and a good masking scheme for sound segregation and recognition while offering significantly less computational complexity compared to the conventional cross-correlation based methods without the need for the training of masking according to the spatial configuration of sound sources.

이 논문은 인간이 공간상의 음원을 인지하는 과정을 두 귀에서 발생하는 영교차를 이용하여 모델링하고자 한다. 인간은 음원을 3차원 공간상에서 인지하기 위해 두 귀에서 발생하는 시간지연(interaural time difference, ITD)과 세기차이(interaural intensity difference, IID)등의 특징을 이용한다. 기존의 두 귀를 이용한 방향탐지 모델들은 대부분 두 귀의 주파수채널의 신호를 교차상관(cross-correlation)한 다음 최고치를 찾아 ITD를 구하고, 시간프레임간의 세기차이로 IID를 계산한다. 하지만 이 방법은 채널신호에서 직접 복잡한 교차상관을 계산하기 위해 많은 시간이 소요되고, 여러 개의 음원이 존재할 경우 정확도가 떨어지는 단점이 있다. 또한 ITD와 IID가 독립적으로 구해지기 때문에 두가지 정보가 서로 위배될 경우 음원의 방향을 결정할 때 어려움이 따른다. 이 논문에서는 두 귀의 주파수채널 신호에서 각각 영교차 시간 (zero-crossing times)과 구간의 세기 (interval powers)를 측정하여 청각 신경계의 발화패턴을 얻은다음, 주어진 영교차 시간을 중심으로 ITD와 IID 정보를 구한다. 이때 ITD값의 2차 통계적 특성을 이용하여 ITD 정보의 신호 대 잡음비 (SNR)를 직접 추정하였고, 이를 음원의 공간 인지과정에 이용하였다. 그리고 영교차점을 이용한 공간상의 음원 인지 알고리즘으로 다음의 음원 국지화 (localization), 분리 (segregation), 및 반향제거 (dereverberation) 에 관한 새로운 방법들을 제시한다. $\bullet$ 제안하는 음원 국지화 방법은 영교차에 기반하여 구한 ITD 샘플에 추정된 ITD의 SNR 값을 weighting하여 구한 히스토그램을 이용한다. 실험에서 제안한 방법은 기존의 교차상관에 의한 방법보다 정확도뿐만 아니라 다수의 음원을 분리하는 능력에서 뛰어난 성능을 보였다. $\bullet$ 음원 분리 방법에서는 각각의 영교차점을 ITD 공간에서 인접한 신호에 할당하는 방법으로 주파수-시간 영역에서 신호 대 잡음의 세기율 (power ratio) 을 추정하였고, 이에 따라 음원 분리 마스크를 만들어 기존의 교차상관 방법을 이용한 학습에 의한 마스킹 방법보다 우수한 음원 분리 성능을 보였다. $\bullet$ 반향 제거 방법으로는 음원 분리 단계에서 방향정보 뿐만 아니라 음원들 고유의 주파수 정보를 이용하는 방법으로 새로운 마스크를 만들었고, 이를 이용한 결함자료 음성인식기(missing data speech recognizer)에서 다양한 반향이 있는 환경에 대해 방향정보만을 이용하여 마스크를 만드는 방법에 비해 인식성능이 우수함을 보였다. 제안하는 영교차를 이용한 공간 청각 방법들은 기존의 교차상관 관계를 이용한 방법들에 비해 여러개의 음원이 있는 잡음 공간에서 음원들을 보다 정확히 국지화 하고 분리한다. 또한, 반향이 있는 환경에서도 보다 효과적인 마스킹 방법에 의해 잡음들로 부터 음원을 정확히 분리하여 인식성능을 높혔다.

서지기타정보

서지기타정보
청구기호 {DMA 07005
형태사항 xi, 94 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김영익
지도교수의 영문표기 : Rhee-Man Kil
지도교수의 한글표기 : 길이만
수록잡지명 : "Estimation of interaural time differences based on zero-crossings in noisy multisource environments". IEEE transactions on audio, speech and language processing, (2007)
학위논문 학위논문(박사) - 한국과학기술원 : 응용수학전공,
서지주기 Reference : p. 85-94
QR CODE qr code