한국과학기술원 도서관

서지주요정보
Improvement of Statistical model-based noise-robust voice activity detector = 잡음에 강인한 통계모델기반 음성검출기의 개선
서명 / 저자	Improvement of Statistical model-based noise-robust voice activity detector = 잡음에 강인한 통계모델기반 음성검출기의 개선 / Young-Gwan Kim.
발행사항	[대전 : 한국과학기술원, 2010].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8021556

소장위치/청구기호

학술문화관(문화관) 보존서고

MICE 10010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Statistical model-based voice activity detector (SMVAD) is a robust algorithm in various noise conditions to detect speech region from input signal using noise and noisy speech statistical models such as complex Gaussian probability density function (PDF). The decision rule of SMVAD is based on likelihood ratio test (LRT). However, the LRT-based decision rule may cause detection errors because of statistic properties of noise and speech signal. In this paper, we analyze the reasons why the detection errors occur. To decrease the detection errors, we propose two modified decision rules using reliable likelihood ratios (LRs) determined by spectral power of each frequency bin. We also propose a weighting scheme considering spectral characteristics of noise and speech signal. To decrease the spectral variation of same type of noise signal, in addition, we propose a spectral smoothing method of input signal and explain the effects of this method. The performances of our proposed methods are evaluated by receiver operating characteristic (ROC) curves and compared with three conventional methods in various noise environments. In most of noise conditions, the proposed methods show better performance than conventional methods. The experimental results also show that the proposed weighting scheme, which is applied to each LR, can guarantee the most stable performance improvement of SMVAD.

복소 가우시안 통계모델을 적용한 음성검출기가 제안된 이후로, 통계모델 기반의 음성검출기의 성능 향상을 위한 많은 연구가 이루어져 왔다. 하지만 이러한 연구들은 대부분 잡음의 실제적인 특성에 초점을 맞추기 보단 이론적인 가정과 확률적인 모델링만을 통해 이루어져왔기에 다양한 잡음 환경에서의 기존의 통계모델 기반의 음성검출기의 성능 향상에 미치는 효과가 미미했던 것 또한 사실이다. 이러한 사실을 토대로 본 논문에서는 통계모델 기반의 음성검출기의 이론을 간단하게 소개하고 여기서 사용되는 우도비와 이를 통한 결정규칙을 음성 및 잡음신호와 관련하여 보다 실제적인 분석을 하였으며 이러한 분석을 통해 음성검출기의 성능향상에 기여할 수 있는 방법들을 제안하였다. 기존의 통계모델 기반의 음성 검출기는 전체 주파수 빈(bin)에서의 우도비의 평균을 통해 현재 프레임의 음성/비음성 여부를 판단하였다. 본 논문에서는 결정 규칙에 사용되는 특정한 우도비들이 음성을 포함하는 프레임에서 낮은 값을 나타냄으로써 평균을 감소시키거나, 잡음만 존재하는 프레임에서 오히려 높게 나타나 평균 값을 상승시켜 음성검출기의 성능을 떨어뜨리는 현상을 분석하였으며, 이를 통해 음성/비음성 구간의 차별도를 잘 표현해 줄 수 있는 우도비를 각각의 빈의 파워에 따라 선택적으로 활용하는 결정 규칙을 제안하였다. 또한 이러한 신호적 특성을 고려하여 각각의 우도비에 가중치를 부여해 음성 검출기의 성능을 향상 시킬 수 있는 방법을 제안하였으며, 인접 주파수 성분을 고려한 스펙트럼 평탄화(smoothing)를 통해 같은 종류의 잡음 신호의 프레임간 변화를 최소화 시켜 음성 입력을 더욱 잘 감지하고자 하는 방법을 제안하였다. 이렇게 제안된 방법들은 다양한 잡음환경에서의 실험을 통해 기존의 방법들보다 높은 성능 향상도를 보여주었으며, 특히 결정규칙의 임계치를 결정해야 하는 오류 경보율(False alarm rate)이 0.2이하인 구간에서 평균 0.1에서 0.15이상의 음성 검출율(Speech detection rate)의 향상을 보여주었다. 또한 낮은 파워를 가지는 잡음 신호의 주파수 영역과 낮은 사후 신호대 잡음비를 고려한 가중치를 적용한 기법은 다양한 환경의 잡음 환경에서 안정적인 성능 향상을 보장해 주는 것을 확인 할 수 있었다.

서지기타정보

서지기타정보
청구기호	{MICE 10010
형태사항	viii, 49 p. : 삽화 ; 26 cm
언어	영어
일반주기	저자명의 한글표기 : 김영관 지도교수의 영문표기 : Hoi-Rin Kim 지도교수의 한글표기 : 김회린
학위논문	학위논문(석사) - 한국과학기술원 : 정보통신공학과,
서지주기	Reference: p. 43-45

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서