서지주요정보
Text-independent speaker indentification in a distant-talking multi-microphone environment = 원거리 다채널 환경에서 문맥독립 화자식별
서명 / 저자 Text-independent speaker indentification in a distant-talking multi-microphone environment =  원거리 다채널 환경에서 문맥독립 화자식별 / Mi-Kyong Ji.
저자명 Ji, Mi-Kyong ; 지미경
발행사항 [대전 : 한국정보통신대학교, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0001076

소장위치/청구기호

문지도서관2층 학위논문

ICU/DS08-11 2008

휴대폰 전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

In this dissertation, we propose new combination schemes to integrate the identification results obtained by recognizing the speech inputs recorded simultaneously with the individual microphones with the aim of achieving the best possible speaker identification rate. Recent speaker identification technologies perform reasonably well when speech signals are captured in noise-free environments using close-talking microphones. However, such ideal acoustic conditions are generally unrealistic and the speaker identification rate could be significantly degraded due to a variety of causes. In order to deal with such problems, we propose a likelihood-based combination method to integrate the identification results by rescoring the average log-likelihood of the hypothesis. And we upgrade the existing combination schemes by applying weight to the individual identification result based on the frame's relative entropy. In many practical situations, the likelihood scores lie within different dynamic ranges since there exists a score variability, which could come from different information, sound sources, etc. Thus, the likelihood scores themselves do not necessarily reflect their respective significances exactly. The speaker identification task generally does not require rescoring since the decision is made using the likelihood score from a single utterance. In this dissertation, however, the average log-likelihoods are rescored in order to make them reflect their respective significances, and they are used to combine the identification results for performance improvement in speaker identification. In addition, we propose a combination method to fuse the identification results softly by measuring the degree of the confidence in their respective classification results. From the experimental results, it is demonstrated that the proposed combinations greatly enhance the identification performances in a noisy distant-talking environment. The experimental result shows that the improvement rates of CS, CM, and CV are 55.2%, 32.2%, and 53.3% respectively with the noisy speech database with air-conditioner noise. In conclusion, the proposed combination schemes can be used to achieve the identification performance and to provide a speech interface for a wider range of hands-free applications in a ubiquitous environment, thereby considerably enhancing the quality of human and computer interaction.

본 논문은 원거리 다채널 (distant-talking multi-microphone) 환경에서의 문맥독립 (text-independent) 화자식별 (speaker identification) 기법에 관한 것으로 원거리 다채널 환경에서 화자식별의 성능향상을 그 목적으로 한다. 최근 화자식별 기술의 발달과 함께 대부분의 화자식별 시스템은 이전보다 높은 화자식별 성공률을 제공하고 있다. 그러나 그들 대부분이 제한된 환경 즉, 잡음이 비교적 작은 조용한 환경에서 마이크를 화자의 입 가까이에 배치하고 발성하였을 경우 높은 성공률을 보장한다. 그러나 실제로 이러한 바람직한 환경은 거의 현실에 존재하지 않으며 오히려 실생활에서는 여러 잡음이 공존하고 마이크 또한 사용자로부터 멀리 떨어져 있다. 이렇듯 실생활에서 존재하는 다양한 원인으로 인해 화자식별 성능은 크게 떨어지게 되고 이러한 문제를 극복하기 위해 본 논문에서는 각 채널 (microphone) 별 음성입력에 의한 화자식별 결과를 효과적으로 융합함으로써 (combing) 화자 식별성능을 향상시키고자 한다. 채널 별 음성입력의 경우, 잡음, 마이크와 화자 사이의 거리, 마이크의 위치나 방향 등으로 인해 채널마다 음성입력이 달라질 수 있고 이로 인해 채널 별 화자식별 결과 또한 달라질 수 있다. 따라서 이를 융합하여 화자식별의 성능을 향상시킬 수 있다. 대부분의 경우, 융합된 화자식별 결과는 어느 한 채널입력에 의한 화자식별 결과보다 높은 화자식별 정확도를 보여 줄 수 있다. 다른 화자, 다른 발성, 잡음 등에 따라 화자식별 결과의 유사도 값 자체는 변하기 쉬운 특성 (score variability) 을 가지고 있으며 유사도 값 자체는 값이 의미하는 중요성을 가지지 않는다. 따라서 이 유사도 값을 화자식별 결과의 중요성을 나타내는 값으로 변환하고 (rescoring) 융합하여 사용함으로써 원거리 다채널 환경에서의 화자식별 성능을 높인다. 또한 화자식별 결과의 신뢰도를 측정할 수 있는 방법 (measurement) 을 제안하고 이를 사용하여 각 채널결과에 가중치를 주어 기존의 융합 알고리즘의 성능을 크게 향상시킬 수 있다. 이를 위해서 프레임 별 화자식별 공헌도를 추정하고 이를 기반으로 화자식별 결과의 신뢰도를 측정하였다. 이를 적용한 실험 결과, 원거리 (0$\deg$도 5m 와 45$\deg$도 5m) 환경에서 평균 약 23.3% 와 32.3% 의 성능향상 (IMR)을 보였으며, 잡음환경 (air-conditioner, music, vacuum) 에서 평균 약 34.6% (각 잡음 별 46.9%, 39.5%, 17.4%) 의 성능향상을 보였다. 잡음환경 중 에어컨 잡음 하에서 CS, CM, CV 통합 방법의 경우, 각각이 55.2%, 32.0%, 53.5% 의 최고의 성능향상을 보였으며 청소기 잡음 하에서 24.1%, 6.6%, 21.5% 로 성능향상이 제일 낮았다. 실험 결과를 토대로 결론을 내리면, 제안된 화자식별 결과 융합기법은 원거리 다채널 환경에서 화자식별 성능을 크게 향상시킬 뿐 아니라, 유비퀴터스 환경에서 다양한 핸즈프리 응용 프로그램에서 음성 인터페이스로 사용될 수 있으며 더 나아가 인간과 컴퓨터 간의 상호작용을 원활하게 하고 의사소통의 질을 높일 수 있다.

서지기타정보

서지기타정보
청구기호 {ICU/DS08-11 2008
형태사항 x, 95 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 지미경
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 83-87
주제 Multiple microphone
Speaker Identification
Speaker Recognition
다채널 환경
화자식별
화자인식
QR CODE qr code