서지주요정보
Efficient acoustic modeling of HMM speech recognizer by subvector quantization method = 부벡터 양자화 방법을 이용한 HMM 음성인식기의 효율적인 음향 모델링
서명 / 저자 Efficient acoustic modeling of HMM speech recognizer by subvector quantization method = 부벡터 양자화 방법을 이용한 HMM 음성인식기의 효율적인 음향 모델링 / Gue-Jun Jung.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019754

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 08011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In the last decade, many researches have investigated automatic speech recognition techniques. As a result of these efforts, the fast, robust and effective speech recognition systems have been developed in the desktop environment. Among several techniques, Hidden Markov Model (HMM) shows a highly efficient recognition capability and provides a possibility that a voice user interface can be put into practical use. However, it hard to directly reproduce the algorithms suitable for the desktop applications onto mobile devices. Though it is possible, most cases show an inefficient performance, which is unacceptable for practical use. To overcome these limitations, several approaches such as computation reduction, voltage modulation, fixed-point arithmetic, alternative training and decoding algorithm and low-memory consumption are proposed. Among those technologies, memory reduction is a crucial issue for resource constrained automatic speech recognition (ASR) because large vocabulary and continuous HMM based ASR systems occupy significant amount of memory to store the parameters. A simple yet effective way to reduce the required resources with little effect on the performance is to quantize parameters. Several techniques have been used to achieve this objective. Scalar quantization simply clusters the individual elements of parameter vectors and sub-vector clustering breaks up vectors into several sub-vectors, allowing the complexity of the search and the storage requirements to be reduced at the cost of an increase in distortion. In most cases, however, only easily recognized knowledge is used in the choice of sub-vectors such as the type of features and the most strongly correlated pairs or higher dimensional subvectors which have the same dimension. This dissertation aims at maintaining the performance of parameter quantized ASR system as good as that of the original HMM based speech recognition system using the subvector quantization method. There are two problems to be solved before presenting the method. One is how to define the subvectors structure which is called subvector clustering algorithm. This definition is strongly correlated with how to reduce the quantization errors of HMM parameters, so it is related to the maintenance of ASR system performance. This study proposes the information distance based subvector clustering algorithm to resolve this problem. The proposed algorithm adopts the entropy based information distance (ID), which measures the similarity between each parameter dimension and translates the subvector clustering problem into a graph partition problem. To find near optimal partitions, the proposed algorithm applies the Cross-Entropy (CE) method, which is based on a randomized optimization technique and a simple and efficient method for solving the combinatorial optimization problems. The performance of the proposed algorithm is compared with the mutual information based greedy selection algorithm and the mutual information based maximum clique algorithm using the Resource Management (RM) database. The results show that the proposed algorithm produces better subvector definition than the previous algorithms minimizing the vector quantization errors. It indicates that the proposed algorithm significantly improves the efficiency of subvector quantized ASR system. The other problem is how to quantize the parameter vectors to minimize the degradation of ASR performance. In general vector quantization schemes, the objective is to minimize the absolute vector quantization errors. Previous subvector quantization scheme also focuses on the minimization of the sum of the vector quantization errors in each subvector. However, this is not the best objective for ASR parameter quantization, especially mean and variance vectors. Mean and variance vectors are the most important parameters in HMM based ASR system but the result of speech recognition is determined by the sum of output probabilities in each frame. The most important factor to minimize the degradation of ASR system performance is not the vector quantization error of the ASR parameter itself but the distortion of output probabilities. The easiest way to reflect this observation is to adopt a new distance measure in vector quantization scheme. In this study the symmetric Kullback-Leibler divergence is used to solve this problem. It is a measure of the difference between two probability distributions and can reflect the distortions of output probabilities. To apply this measure in each parameter quantization, the scale of mean vectors is normalized and ratio based variance comparison scheme is derived. Experimental results on RM database indicate that the proposed subvector quantization method is significantly improves the efficiency of subvector quantized ASR system. Especially the proposed method improves the performance with any kind of subvector clustering algorithms. In summary, this dissertation proposs the new systematic subvector clustering algorithm and the vector quantization method to minimize the degradation of ASR performance, which significantly improves the efficiency of ASR system occupying small portion of storage memory.

최근 차세대 인터페이스에 대한 요구가 증가하면서 음성인식 기술의 실용화에 대한 연구가 활발히 진행되어 오고 있다. 특히 하드웨어 기술의 발달과 함께 빠른 반응 시간, 높은 인식 성능을 보장하는 효과적인 음성인식 시스템들의 개발이 가능해 지고 있다. 이러한 연구들 중 은닉 마르코프 모델은 높은 인식 성능을 바탕으로 음성인식 기술을 연구 단계에서 실용화 단계로 이끄는 중추적인 역할을 수행하고 있다. 하지만 이렇게 진행되어진 연구들 대부분은 PC와 같은 높은 가용자원이 제공되는 환경에서 수행 가능하도록 개발되어 있어 핸드폰, PDA와 같은 자원 제한적 환경에 음성인식 기술을 적용하기에는 큰 어려움이 있다. 이러한 문제점을 극복하고 음성인식기를 다양한 기기의 인터페이스로 활용하기 위해서는 연산량, 소모 전력, 저장 공간 등과 같이 음성인식기의 구동에 필요한 자원을 효과적으로 감소시키기 위한 연구들이 진행되어야 한다. 이러한 요소 기술들 중 저장 공간 감소에 대한 연구는 대용량 연속음성 인식기술을 각종 기기의 인터페이스로 활용하기 위해 극복해야할 가장 중요한 기술 중 하나로 고려되어 다양한 연구가 진행되고 있다. 이러한 연구들 중 음성 모델의 파라미터를 양자화시키는 방법은 인식 성능에 큰 영향을 주지 않으면서도 효과적으로 저장 공간을 감소시킬 수 있는 기술로 널리 이용되고 있다. 이러한 개념을 바탕으로 발표된 대표적인 모델 표현 방법으로는 다차원 벡터로 구성된 모델 파라미터들의 각차원을 정규화하여 스칼라 양자화하는 방법, 전체 특징벡터 공간에서 표현된 가우스 분포들을 낮은 차원들로 표현된 가우스 분포의 곱으로 변환한 후 군집화하는 방법, 다차원 벡터를 몇개의 부벡터로 분할하여 각 부벡터 단위로 벡터 양자화를 수행하는 방법이 있다. 특히 부벡터로 분할을 통해 모델을 표현하는 방법은 저장 공간 감소 뿐만 아니라 부벡터 단위에서 인식 속도 개선도 가능하게 해주는 것으로 알려져 있다. 부벡터로 분할하여 모델을 표현하는 방법에서는 부벡터를 어떻게 구성하는가에 따라, 각 부벡터를 어떻게 양자화는가에 따라 인식 성능이 크게 차이를 보이게 된다. 기존 연구들에서는 부벡터를 분할의 경우 전문가가 임의로 선정하는 방법, 임의로 고정된 차원으로 구성 가능한 모든 부벡터 중 가장 상관계수가 높은 부벡터부터 순차적으로 선택하는 방법, 유사도가 낮은 차원들을 같은 부벡터에서 제거하는 방법 등으로 해결하고 있으며 양자화 방법은 유클리디언거리 기반 벡터 양자화를 이용하고 있다. 본 연구에서는 은닉 마르코프 모델을 기반으로한 음성인식 모델을 부벡터 양자화 기법을 통해 표현하는 기존 연구 방법들을 살펴보고 기존 방법들의 문제점을 제시한다. 그리고 제시한 문제점을 좀 더 효과적 해결할 수 있는 모델 표현 방법을 제안한다. 이러한 과정에서 부벡터를 어떻게 효과적으로 분할 할 것인가, 각 부벡터들을 어떻게 효과적으로 양자화 할 것인가에 대한 두가지 문제점을 효과적으로 해결할 수 있는 새로운 방법을 제안한다. 부벡터 분할에 관한 문제는 음성인식 모델의 파라미터를 양자화하는 과정에서 발생되는 오류를 어떻게 최소화 할 것인가라는 문제와 직접적으로 연관되어 있다. 본 연구에서는 이 문제를 해결하기 위해 정보 거리 기반 부벡터 군집화 방법을 제안한다. 제안한 방법은 부벡터 분할 문제를 전산학의 그래프 이론에 기반한 maximal K-CUT 문제로 변환하여 기존 방법에 비해 좀 더 일반적인 결과를 얻을 수 있도록 한다. 이를 위해 기존 방법에서 이용된 상호정보 척도 기반 양자화 오류 예측 방법을 정보거리 기반 오류 예측 방법으로 변경하였다. 기존 상호정보 척도는 거리 개념을 만족하지 못하지만 정보거리는 엔트로피를 기반으로 거리 개념을 명확히 만족해 준다. 변환된 그래프를 통해 최적에 가까운 공간을 구성하기 위해 본 연구에서는 Cross Entropy 기반 최적화 알고리즘을 도입하였다. 이 방법은 계산 복잡도가 매우 높아 정해진 시간 내에 결과를 얻기 힘든 조합 최적화 문제를 무작위 기법을 통하여 매우 효과적으로 해결할 수 있도록 해준다. 제안된 방법을 Resource Management (RM) 데이터베이스를 이용하여 기존에 제안되었던 상호정보 기반 높은 상관계수를 가지는 부벡터부터 순차적으로 선택하는 `greedy-n m-let` 방법 및 상호정보가 적은 차원들은 서로 독립적으로 만들어 문제를 해결하는 `maximum clique` 방법과 비교한 결과 제안한 방법이 기존 방법들에 비해 동일 저장 공간을 사용하면서도 낮은 오류율 저하를 보였으며 이를 통해 제안한 방법의 우수성을 확인할 수 있었다. 다음으로 분할된 부벡터를 어떻게 양자화 하는 것이 좋은가에 관한 문제를 해결하기 위해 우선 기존 벡터 양자화 방법의 목표와 본 연구에서 대상으로 하는 목표가 어떠한 차이를 가지는지 살펴보았다. 기존 벡터 양자화 기법의 경우 양자화 대상인 벡터들의 절대적 양자화 오류를 최소화하는 것을 목표로 한다. 하지만 음성인식 시스템의 경우 양자화 대상이 되는 평균벡터와 분산벡터의 절대적 오류를 최소화하는 것 보다 인식 과정에 가장 큰 영향을 주는 음성 인식기의 출력 확률 값에 대한 오류를 최소화하는 것이 더 중요한 목표라 할 수 있다. 이러한 관찰을 벡터 양자화에 반영 하기 위해 본 연구에서는 새로운 거리 척도를 벡터 양자화에 적용하여 이를 해결하고자 한다. 이를 위해 본 연구에서는 평균과 분산 파라미터간 거리를 직접 비교하는 기존 Euclidean거리 척도 대신 두 확률 분포의 분포 차이를 거리로 이용하는 대칭 Kullback-Leibler divergence 기반 거리 척도를 벡터 양자화 과정에 도입하였다. 이 과정에서 평균 벡터의 경우 각 차원의 축적을 정규화하는 것이 최적임을, 분산 벡터의 경우 값의 차보다 값의 비율이 더 중요한 의미를 가짐을 식을 통해 유도하였다. 제안한 방법의 유효성을 검증하기 위해 부벡터 분할 실험에 사용된 것도 동일한 RM 데이터베이스를 이용하여 비교 실험한 결과 제안한 양자화 방법이 기존 양자화 방법에 비해 저장 공간 대비 인식성능이 우수함을 확인 할 수 있었다. 본 연구에서는 자원 제한적인 환경에서 음성 인식기를 효율적으로 표현하기 위한 방법으로 부벡터 양자화 방법을 살펴보았다. 이 과정에서 정보거리 기반 부벡터 분할 방법과 Divergence기반 벡터 양자화 방법을 통해 기존 방법에 비해 저장 공간 대비 성능 측면에서 매우 효과적인 음향 모델 표현방법을 제안하였다. 향후에는 아직 최적화 여지가 남아있는 분산에 대한 세밀한 연구가 필요하며 제안된 방법을 화자인식과 감정인식과 같은 관련 연구들에 적용해볼 필요가 있다.

서지기타정보

서지기타정보
청구기호 {DCS 08011
형태사항 ix, 97 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 정규준
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지정보 : "Information Distance-Based Subvector Clustering for ASR Parameter Quantization". IEEE Signal Processing Letters, v.15, pp.209-212(2008)
Includes Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 References : p. 93-97
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서