서지주요정보
i-vector와 PLDA를 사용한 텍스트 독립 화자식별 = Text-Independent Speaker Identification using i-vector and PLDA
서명 / 저자 i-vector와 PLDA를 사용한 텍스트 독립 화자식별 = Text-Independent Speaker Identification using i-vector and PLDA / 김윤회.
저자명 김윤회 ; Kim, Yoon-Hoe
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030636

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17027

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Gaussian mixture model (GMM) has long been used for speaker modeling in the speaker identification task. In particular, maximum a posteriori (MAP) adapted GMM from the well trained universal background model (UBM) is still being used showing a reliable performance. However, the adapted GMM becomes similar to UBM as the number of a given training feature vectors decreases, which means the GMM is not properly adapted and results in a low identification accuracy. In this thesis, we introduce a speaker identification with i-vector which consists of a small number of total variability factors from the GMM mean supervector space and is expected to better represent each speaker than GMM. Each i-vector from the same speaker has a slight difference from session to session because i-vector includes session variability as well as speaker variability. For the session compensation in identifying a speaker with i-vector, we use probabilistic linear discriminant analysis (PLDA). The i-vector/cosine identification achieved 46.7% relative error rate reduction compared to the GMM identification. We also got an error rate of 11.32% with the i-vector/PLDA identification, which is 35.1% relative reduction compared to the i-vector/cosine identification.

Gaussian mixture model (GMM)-universal background model (UBM)으로부터 maximum a posteriori (MAP) 방법으로 적응된 화자의 GMM은 음성 특징 벡터들의 복잡한 분포를 확률적으로 잘 묘사하여 화자식별에 널리 쓰인다. 하지만 GMM-UBM의 복잡성에 비하여 주어진 음성 특징 벡터들의 수가 부족할 경우 화자의 GMM이 충분히 훈련되지 못해 화자식별력 저하를 야기한다. 본 학위논문에서는 GMM mean supervector 공간에서 factor analysis를 통해 얻은 작은 차원의 i-vector를 화자식별에 도입하여 화자식별 성능을 개선하고자 한다. 또한 i-vector는 화자 변동성뿐만 아니라 세션 변동성도 포함하기 때문에 같은 화자의 i-vector라도 세션에 따라 다른 값을 보여 준다. 본 학위논문에서는 세션 보상을 위해 probabilistic linear discriminant analysis (PLDA)를 사용한다. 전화환경에서 i-vector의 방향만을 고려하는 코사인 유사도 값으로 화자식별을 수행한 결과 MAP 방법으로 적응된 GMM을 사용한 화자식별에 비해 46.7%의 상대적 오류율 감소를 보여주었다. 추가적으로 PLDA 기반의 식별을 수행한 결과 코사인 유사도 기반의 식별에 비해 35.1%의 상대적 오류율 감소를 보여주었다.

서지기타정보

서지기타정보
청구기호 {MEE 17027
형태사항 v, 49 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Kim, Yoon-Hoe
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Kim, Hoirin
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 46-47
주제 GMM
i-vector
화자식별
factor analysis
PLDA
GMM
i-vector
speaker identification
factor analysis
PLDA
QR CODE qr code