서지주요정보
Zero-crossing-based sound source localization, segregation and recognition = 영교차점에 기초한 음원의 방향 탐지, 분리 및 인식
서명 / 저자 Zero-crossing-based sound source localization, segregation and recognition = 영교차점에 기초한 음원의 방향 탐지, 분리 및 인식 / Sung-Jun An.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021012

소장위치/청구기호

학술문화관(문화관) 보존서고

DMA 10006

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis presents some new methods of spatial hearing Algorithm. The first one is zero-crossing-based sound source localization with precedence effect in severely reverberant conditions. And the second one is binaural mask estimation for sound segregation and recognition under the condition that multiple sound sources are present simultaneously. The precedence effect is a psychoacoustic effect related to a group of auditory phenomena. Especially under reverberant condition, when various similar sounds originated from one or more sources at different location from the listener, the direct sound arrived first and it is also heard first. To the listener, this creates the impression that the sound comes from that location alone due to a phenomenon and suppress the perception of later arrivals. By adapting this precedence effect to our sound source localization algorithm, we can get very good simulation results in sound localization under severely reverberant condition. For sound segregation and recognition, we use a ratio masking method. The masking is determined by the estimated sound source directions using the spatial cues such as inter-aural time differences (ITDs) and inter-aural intensity differences (IIDs). In the suggested method, the estimation of ITDs is utilizing the statistical properties of zero-crossings detected from binaural filter-bank outputs. We also consider the estimation of ITDs with the aid of IID samples to cope with the phase ambiguities of ITD estimates in high frequencies. For the masking method, we consider using the power ratio of the target to interference sources. We show that this power ratio is optimal from the view point of reconstructing the target speech signal and is effectively used in missing data speech recognition. To estimate the power ratio, the expectation and maximization (EM) method is used for ITD estimates. As a result, the proposed method is able to provide the better masking scheme for speech segregation and recognition compared to the conventional cross-correlation-based methods.

이 논문에서 수행한 연구는, 여러 음원과 잡음이 동시에 존재하는 환경에서, 인간의 청각 시스템을 모델로 하여 인간의 그것과 같은 성능을 보이는 새로운 음성 정보 처리 시스템의 구현에 관한 것이다. 인간의 청각 시스템과 유사한 시스템을 만들기 위해 우리는 두 귀(sensor)로 들어오는 여러 음원으로 부터의 신호에 대해 음원의 방향 탐색, 분리 및 인식에 관한 연구를 하였다. 음성 정보 신호 처리를 위해 음원의 공간에서의 정보인 시간지연 (inter-aural time difference, ITD)과 세기차이(inter-aural intensity difference, IID)등의 특징을 영교차점에 기초하여 추출하였다. 우리 연구에서는 위의 두 가지 대표적인 특징을 이용하여 음성 신호를 처리하게 되는데, 이 특징들을 추정할 때에 그 값들을 각각 추정하는 것이 아니라, ITD정보의 애매성을 보완하기 위해 두 정보를 함께 고려하였다. 이를 통해 보다 더 정확한 ITD값을 얻을 수 있었다. 이러한 ITD값들은, 무반향 환경에서의 여러 음성신호 처리 분야에서 아주 좋은 성능을 낼 수 있는 특징값들이다. 하지만 반향 환경에서는 음원의 공간적인 정보의 왜곡이 심하여, 반향환경에서의 음성 신호 처리에 관한 문제는 아직도 도전문제 (challenge problem)로 남아있다. 이를 해결하기 위해 우리는 인지 심리학의 개념인 'Precedence Effect' 라는 개념을 도입한 새로운 시스템을 고안하였는데, 그 결과 심한 반향 환경에서도 아주 좋은 음원의 방향탐지 성능을 얻을 수 있었다. 또한 음원의 분리와 인식을 위해 시간-주파수 영역에서 파워비에 기초한 매스크(mask)를 사용하게 되는데, 타겟음원에 대한 주변음원들의 파워비를 이용하여 새로운 비율 매스크 (ratio mask)를 추정하였다. 이러한 매스크를 만들기 위해 ITD추정값에 대해서 EM (Expectation and Maximization) 방법을 이용하였다. 또한, 이러한 파워의 비가 타겟 음성 시그널을 재합성하고, 손실데이터에 기초한 음성인식을 함에 있어서 최적의 형태라는 것을 보였다. 우리가 제시한 방법론은 음원분리와 인식에 있어서 기존의 상관교차에 의한 방법에 비해 보다 더 좋은 매스크를 추정할 수 있는 방법이다.

서지기타정보

서지기타정보
청구기호 {DMA 10006
형태사항 ix, 87 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 안성준
지도교수의 영문표기 : Sung-Ho Kim
지도교수의 한글표기 : 김성호
공동교수의 영문표기 : Rhee-Man Kil
공동교수의 한글표기 : 길이만
수록잡지명 : "Zero-Crossing-Based Speech Segregation and Recognition for Humanoid Robots". IEEE Transactions on Consumer Electronics, (2009)
학위논문 학위논문(박사) - 한국과학기술원 : 수리과학과,
서지주기 Reference: p. 81-87
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서