서지주요정보
Performance improvement of speaker identification system using speech soft-decision = 음성 Soft-Decision 기반 화자식별 시스템 성능 개선
서명 / 저자 Performance improvement of speaker identification system using speech soft-decision = 음성 Soft-Decision 기반 화자식별 시스템 성능 개선 / Joo-Hong Yoo.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021868

소장위치/청구기호

학술문화관(문화관) 보존서고

MICE 10048

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

One of the ways to improve performance of speaker identification (SID) systems in noisy environments is only to use real speech segments of an utterance. Therefore, SID systems utilize voice activity detection (VAD) methods to detect speech presence regions, and it is possible to develop improved systems by utilizing more outstanding VAD. There are two widely used VAD methods for speech signal processing; energy based VAD (EVAD) and statistical model based VAD (SMVAD). However, those VAD methods have a weakness in noisy environments; it is that they use hard-decision logic as decision rules. Because the ordinary VAD methods-that use hard-decision-always clearly decide the given speech frames as speech presence regions or speech absence regions even though it is difficult to obviously split into the two regions in noisy environments, errors may occur near borders of the two regions in noisy environments. Then the errors may decrease performances of SID systems. Thus, we propose a technique utilizing speech soft-decision (SSD) method, which weighs to speech boundaries with a value between 0 and 1. We evaluated the performance of the proposed system with the accuracy of speaker identification and compared the results with the performances of SID systems using the conventional hard-decision based EVAD and SMVAD. We could see that the performance of the proposed system improved in noisy environments.

잡음환경에서 화자식별시스템의 성능을 향상시키는 한가지 방법은 화자의 발화 중 음성의 데이터만을 활용하는 것이다. 때문에 화자식별시스템은 음성이 존재하는 부분만을 검출해내기 위해 음성검출기법을 사용하고, 더욱 우수한 음성검출기법을 사용함으로써 화자식별시스템의 성능을 높일 수 있다. 음성신호처리의 분야에서 가장 일반적으로 사용되는 음성검출기법은 에너지 기반 음성검출방법과 통계모델기반 음성검출방법 두 가지가 있다. 하지만 이 음성검출기법들에는 한가지 문제점이 있는데, 그것은 바로 결정규칙으로 hard-decision을 사용한다는 부분이다. hard-decision을 결정규칙으로 사용하는 음성검출기법들은 오직 두 값, 0과 1만을 결정의 결과값으로 사용하여 실제로 잡음환경에서 뚜렷하게 구분이 불가한 음성이 존재하는 부분과 그렇지 않은 부분을 뚜렷하게 구분하고, 이것은 잡음환경에서 그 두 부분의 경계부근에서 결정오류를 발생시키게 된다. 따라서 이 논문에서는 뚜렷한 두 값, 0과 1만이 결정의 결과값이 아닌, 0과 1의 사이의 값으로 발화 중 어떤 구역의 음성의 포함 정도를 결과로 사용하는 음성 soft-decision 방법을 적용하여 화자식별시스템의 성능을 높이는 방법을 제안하였다. 실험은 제안된 방법을 통한 화자식별 테스트의 인식성공률로 하였으며 이 결과를 에너지기반 음성검출기법과 통계모델기반 음성검출기법을 활용한 화자식별시스템의 인식성공률과 비교를 통해 어느 정도 성능이 향상되는지 알아보았다. 실험의 결과 잡음환경에서 제안된 방법의 성능이 향상되는 것을 확인할 수 있었다.

서지기타정보

서지기타정보
청구기호 {MICE 10048
형태사항 vii, 45 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 유주홍
지도교수의 영문표기 : Hoi-Rin Kim
지도교수의 한글표기 : 김회린
학위논문 학위논문(석사) - 한국과학기술원 : 정보통신공학과,
서지주기 References: p. 39-41
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서