서지주요정보
Time delay estimation based on pitch harmonics weight and wiener gain for robust speaker localization = 강인한 화자 위치 인식을 위한 피치 고조파들의 가중치와 위너 이득에 기반한 시간 지연 추정
서명 / 저자 Time delay estimation based on pitch harmonics weight and wiener gain for robust speaker localization = 강인한 화자 위치 인식을 위한 피치 고조파들의 가중치와 위너 이득에 기반한 시간 지연 추정 / Jin-Ho Choi.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019248

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 08088

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speaker localization based on time difference of arrival (TDOA) approach is commonly used in practical with low complexity. In this approach, time delays are estimated between pairs of microphones through signals received by microphones. The estimated time delays can be processed to find the location of speaker. Therefore, it is very essential to obtain good estimated time delays for effective speaker localization. But noise and room reverberation in real environments, affect on exact time delay estimation. Many conventional methods have tried to overcome this adverse environments. Usually the well-known methods for time delay estimation are based on generalized cross correlation (GCC) that is the cross correlation of filtered versions in frequency domain. Especially GCC-PHAT, GCC-ML, corresponding to each filter (called weight function) have different properties each other for noise and reverberation. In this thesis, Analyzing and Compensating these, proposed method is developed. It uses the spectral feature of speech production, called pitch, advantages of GCC methods and Wiener gain for a novel weight function. Through experiments, proposed method is compared with conventional methods and interpretation of proposed method is described.

화자위치 인식은 마이크로폰에 받아들여진 음성들을 이용하여 화자의 위치를 찾아내는 것이다. 이러한 기술은 비디오 컨퍼런싱, 로보틱스 산업 등에서 널리 사용되고 있다. 이러한 화자위치 인식 방법들 중 실시간 동작을 위해 적용할 수 있는 가장 그럴 듯한 방법은 신호의 도착시간 차에 기반한 화자 위치 인식 방법이다. 이 방법은 마이크로폰들 사이에 받아들여지는 신호들의 정확한 시간 지연을 추정하여, 화자 위치 인식 알고리즘을 통해, 화자의 위치가 얻어진다. 여기에서 정확한 시간 지연을 추정하는 것이 이 방법의 성능을 결정짓는다. 하지만 실생활에서는 잡음과 반향에 의해서 정확한 시간 지연 추정이 힘들게 된다. 시간 지연을 추정하는 기존의 방법들 중 가장 널리 알려진 Generalized cross correlation (GCC) 방법은 주파수 도메인상에서 선 처리를 통해 잡음과 반향에 강인하기 위해 노력해 왔다. 대표적으로 GCC-PHAT, GCC-ML 방법을 들 수 있다. 이 두 방법은 잡음과 반향의 영향에 있어서 서로 상반된 특성을 가진다. 즉 반향이 존재하지 않는 환경에서 잡음이 클 때 GCC-ML은 나은 성능을 보이지만, 반향이 존재하는 상황에서는 심하게 성능이 악화된다. 상대적으로 잡음이 클 때 GCC-PHAT는 나쁜 성능을 가지지만, 반향이 존재하는 상황에서는 GCC-ML 보다 나은 성능을 보인다. 본 논문에서는 이 두 방법을 분석하고, 그것들의 장점을 취해 새로운 방법이 제안된다. 즉 음성의 주파수 특성인 피치는 다른 주파수보다 높은 신호대 잡음비 영역에 존재하고, 반향에 덜 영향을 받는다는 아이디어를 기반으로, 피치 고조파들의 가중치가 주파수 도메인에서 가해진다. 그리고 반향을 고려한 위너이득의 사용은 GCC-PHAT의 특성을 가질 수 있게 만든다. 이렇게 제안된 방법은 GCC-ML과 GCC-PHAT의 특성 모두를 반영하게 됨을 실험 결과를 통해서 확인 할 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 08088
형태사항 vi, 38 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최진호
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 References : p. 37-38
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서