서지주요정보
i-vector와 PLDA를 사용한 텍스트 독립 화자식별 = Text-Independent Speaker Identification using i-vector and PLDA
서명 / 저자 i-vector와 PLDA를 사용한 텍스트 독립 화자식별 = Text-Independent Speaker Identification using i-vector and PLDA / 김윤회.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030636

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17027

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Gaussian mixture model (GMM) has long been used for speaker modeling in the speaker identification task. In particular, maximum a posteriori (MAP) adapted GMM from the well trained universal background model (UBM) is still being used showing a reliable performance. However, the adapted GMM becomes similar to UBM as the number of a given training feature vectors decreases, which means the GMM is not properly adapted and results in a low identification accuracy. In this thesis, we introduce a speaker identification with i-vector which consists of a small number of total variability factors from the GMM mean supervector space and is expected to better represent each speaker than GMM. Each i-vector from the same speaker has a slight difference from session to session because i-vector includes session variability as well as speaker variability. For the session compensation in identifying a speaker with i-vector, we use probabilistic linear discriminant analysis (PLDA). The i-vector/cosine identification achieved 46.7% relative error rate reduction compared to the GMM identification. We also got an error rate of 11.32% with the i-vector/PLDA identification, which is 35.1% relative reduction compared to the i-vector/cosine identification.

Gaussian mixture model (GMM)-universal background model (UBM)으로부터 maximum a posteriori (MAP) 방법으로 적응된 화자의 GMM은 음성 특징 벡터들의 복잡한 분포를 확률적으로 잘 묘사하여 화자식별에 널리 쓰인다. 하지만 GMM-UBM의 복잡성에 비하여 주어진 음성 특징 벡터들의 수가 부족할 경우 화자의 GMM이 충분히 훈련되지 못해 화자식별력 저하를 야기한다. 본 학위논문에서는 GMM mean supervector 공간에서 factor analysis를 통해 얻은 작은 차원의 i-vector를 화자식별에 도입하여 화자식별 성능을 개선하고자 한다. 또한 i-vector는 화자 변동성뿐만 아니라 세션 변동성도 포함하기 때문에 같은 화자의 i-vector라도 세션에 따라 다른 값을 보여 준다. 본 학위논문에서는 세션 보상을 위해 probabilistic linear discriminant analysis (PLDA)를 사용한다. 전화환경에서 i-vector의 방향만을 고려하는 코사인 유사도 값으로 화자식별을 수행한 결과 MAP 방법으로 적응된 GMM을 사용한 화자식별에 비해 46.7%의 상대적 오류율 감소를 보여주었다. 추가적으로 PLDA 기반의 식별을 수행한 결과 코사인 유사도 기반의 식별에 비해 35.1%의 상대적 오류율 감소를 보여주었다.

서지기타정보

서지기타정보
청구기호 {MEE 17027
형태사항 v, 49 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Kim, Yoon-Hoe
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Kim, Hoirin
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 46-47
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서