서지주요정보
실시간 화자식별을 위한 UBM 클러스터링 기반 고속 Likelihood 계산 = UBM clustering based fast likelihood computation for real-time speaker identification
서명 / 저자 실시간 화자식별을 위한 UBM 클러스터링 기반 고속 Likelihood 계산 = UBM clustering based fast likelihood computation for real-time speaker identification / 박주민.
저자명 박주민 ; Park, Ju-Min
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026451

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 14043

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

GMM is a statistical model conventionally used in various classification and recognition tasks. Recently with an effort to increase classifier and recognizer’s performances, many powerful algorithms have been proposed such as neural network and SVM. But GMM still remains popular method among many choices because of its conceptual simplicity and statistical properties. Generally speaking, GMM based speaker identification has very high computational complexity proportional to length of a test vector sequence, number of enrolled speakers, size of GMM(number of mixture). These make speaker identification difficult to be used in practi-cal applications though of its broad applicability. It means that reducing this computational complexity in speaker identification is a prior requirement for real-time applications. However, reducing identification time causes some significant degradation of speaker identification accuracy. Thus, it is essential to consider trade-off relation between computational complexity and accuracy. In previous researches, many effective and powerful methods to reduce computational complexity in speaker identification have been proposed with a little accuracy loss. Pre-quantization (PQ) can be used to reduce the test vector sequence’s length and speaker pruning also to achieve some improvement in reducing computational complexity. In this paper, we proposed a new method based on UBM clustering approach to reduce the computational complexity of the size of GMM with negligible accuracy loss. In experiments with the proposed algorithm, we obtain a speed-up factor of 6 with a negligible accuracy loss. And finally, we will show that it can be successfully used in real-time speaker identification

Gaussian Mixture Model(GMM)은 여러 분류, 인식 분야에서 전통적으로 널리 사용되는 통계적인 모델이다. 최근에 여러 분야에서 분류기와 인식기의 성능을 향상시키기 위해 neural network, SVM과 같은 여러 알고리즘에 대한 연구와 아이디어가 제안되고 있다. 이러한 흐름에도 GMM은 아직 그 자체가 가진 여러 장점들과, 통계적인 특성들로 인하여 가장 널리 사용되고 있는 방법이다. GMM기반의 화자 식별 분야는 일반적으로 많은 계산 복잡도를 요하는 분야로서 이때 계산 복잡도는 테스트 발화의 길이, 등록 화자의 수, GMM의 크기에 비례하는 관계를 가진다. 화자 식별 기술을 실제 적용분야에 사용되기 위해서는 대개 많은 계산 복잡도를 획기적으로 줄이는 것이 관건이지만 계산 복잡도와 식별 성능은 일반적으로 trade-off관계가 성립한다. 따라서 계산 복잡도를 감소시키기 위해서는 식별성능의 저하를 감수해야 하는데 이전의 연구들에서 눈에 띄는 식별성능의 저하 없이 계산 복잡도를 줄이기 위한 시도가 활발히 있어 왔다. 대표적으로 테스트 특징 벡터열의 길이를 줄이는 pre-quantization(PQ)과 현저히 likelihood 값이 낮은 화자모델을 계산과정에서 제외시키는 speaker pruning기법이 있다. 본 논문에서는 UBM 클러스터링 기반의 Gaussian pruning기법을 소개하여 GMM의 사이즈에 해당하는 계산 복잡도 문제를 완화시키는 방법을 제안하였다. 이 알고리즘을 통해 실험을 수행한 결과 미미한 정도의 식별성능 저하에서 6 speed-up factor를 얻었고 결론적으로 이는 제안한 방법이 실제 시스템 환경에서 실시간 처리를 위하여 효과적으로 적용될 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 14043
형태사항 vi, 45 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Ju-Min Park
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Hoi-Rin Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 참고문헌 : p. 39-42
주제 화자 식별
GMM
UBM 클러스터링
계산 복잡도
speaker identification
GMM
UBM clustering
computational complexity
QR CODE qr code