서지주요정보
GMM based speaker identificaition utilizing pitch information and weighted filter bank analysis = 피치 정보 및 DWFBA를 이용한 GMM 기반의 화자 식별
서명 / 저자 GMM based speaker identificaition utilizing pitch information and weighted filter bank analysis = 피치 정보 및 DWFBA를 이용한 GMM 기반의 화자 식별 / Tae-Sun Park.
발행사항 [대전 : 한국정보통신대학교, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000420

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS04-32 2004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The two major factors affecting speaker identification performance are the degradations introduced by noisy communication channels and mismatch between the training and the testing data properties. During the last several years, Gaussian Mixture Models (GMMs) have become very popular in speaker identification systems and have proven to perform very well for clean wideband speech. However, in noisy environments or for noisy band-limited telephone speech, the performance degrades considerably. It is also well known that speaker’s voice always changes over time because of the varying factors such as verbal usage, vocal tract, mood, and health. In this paper, to cope with the mismatches, we proposed the use of prosodic features such as the mean pitch value in voiced intervals while the weighted filter bank analysis (WFBA) is adopted to increase the discriminating capability of mel frequency cepstral coefficients (MFCCs) for speaker identification. In addition, this thesis includes an exhaustive study on several environments and their combinations in order to produce the most robust speaker identification results. The DWFBA method shows 2.77%~4.65% error reduction rate, added pitch information utilization method produces 21.62%~45.39% error reduction rate and combined DWFBA and pitch information utilizing method produces 31.35%~45.39% error reduction rate comparing to the baseline Gaussian Mixture Model.

지금까지 HMM (Hidden Markov Model)과 GMM (Gaussian Mixture Model)은 화자간의 차이를 모델링 하기 위해 가장 효과적인 방법으로 증명되었다. 특히 GMM은 구조가 간단하고 적은 양의 화자 발성으로도 화자의 특성을 효과적으로 모델링 할 수 있으며, 특히 훈련용 발성에서 발생되지 않은 음향학적인 특성까지도 모델링 할 수 있다는 장점을 가진다. 그러나 유선전화의 화자인식률은 전화망 환경에 수반되는 신호의 왜곡 및 잡음으로 인해 일반 마이크 음성의 화자 인식률에 비해 많이 저하된다. 즉, 매 통화마다 채널변이가 발생하여 이로 말미암아 음질 저하는 물론, 화자인식에 중요한 특징 파라미터의 손실이 발생한다. 본 논문에서는 GMM을 기반으로 하여, 특징 파라미터 추출 과정에서 각 숫자들에 대한 사전 지식을 기반으로 화자 개개인의 특성을 잘 반영할 수 있는 음향학적인 특징 파라미터인 피치를 MFCC파라미터에 추가적으로 사용하는 방법을 제안하였다. 즉, 부가적인 특징 파라미터 추출이라는 접근 방법에 의해 인식성능 개선을 도모 하였다. 또한 MFCC 특징 파라미터 추출과정에서 채널환경에 덜 민감하도록 하기 위해 로그 필터 뱅크 에너지의 높은 에너지 부분을 강조해줌으로써 채널 환경에 강인한 특징 파라미터 추출을 하였고, 또한 이 특징파라미터와 피치정보를 결합 함으로서 더 좋은 인식 성능을 꾀하였다. 실험은 훈련발성과 테스트발성 시간의 불일치 또 훈련에 사용되지 않은 발성을 테스트에 사용함으로써 다양한 불일치 환경에서 실험을 수행하였고, 제안된 방법을 이용하여, ERR(Error Reduction Rate) 가 DWFBA를 사용한 경우 4.65 %, 피치정보를 사용한 경우 37.06%, 그리고 DWFBA와 피치정보를 함께 사용한 경우 45.39 %로 감소함을 보였다. 위의 결과로 우리는 제안한 방법이 유선전화망 환경에서의 4연 숫자음을 이용한 화자 확인에 효과적임을 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {ICU/MS04-32 2004
형태사항 vii, 48 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박태선
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 42-44
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서