서지주요정보
Eigenvoice reconstruction for rapid speaker adaptation = Eigenvoice 재구성 기법을 이용한 고속 화자 적응
서명 / 저자 Eigenvoice reconstruction for rapid speaker adaptation = Eigenvoice 재구성 기법을 이용한 고속 화자 적응 / Dong-Jin Choi.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022052

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 10040

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speech recognition is considered as one of the most natural activities in man-machine interaction. Many studies have attempted to provide low error rates for speakers with various characteristics, and speech recognition systems have recently achieved increasingly good performance. However, a speaker-dependent (SD) system generally outperforms a speaker-independent (SI) system when tested on the same speaker. Nevertheless, SI systems are more commonly found in real applications because a large amount of training data is required in SD systems. Speaker adaptation is a technique of producing a system suitable for a specific speaker from an SI system using a small amount of adaptation data for the speaker. Nowadays, researchers are concerned with rapid speaker adaptation, which is a technique of speaker adaptation using a small amount of data, around 30 seconds or less, since the range of applications that cannot request a long speech sample for adaptation data has been growing. Speaker adaptation in eigenvoice space is a popular method for rapid speaker adaptation. This technique constrains the adapted model to a linear combination of a small number of basis vectors, eigenvoices, obtained from a set of reference speakers, thereby reducing the number of free parameters to be estimated. This eigenvoice adaptation method shows good performance given a very small amount of adaptation data, but it has some problems. One drawback of the technique is that the recognition rate of the adapted model reaches a plateau quite quickly. This is because the number of free parameters is too small to generate a sophisticated model, but overfitting may occur when a model has too many free parameters in relation to the amount of adaptation data. To solve this problem, a method is needed to control the number of free parameters according to amount of adaptation data. In this thesis, we propose speaker adaptation using structural eigenvoices. In this method, we can decide the number of free parameters to be estimated according to the amount of adaptation data. First, we divide the mean vectors in speaker dependent models into several classes based on the distance between Gaussians in the speaker independent model. Then, we produce sub-eigenvoices for each class to make a tree structure with these sub-eigenvoices. Then, we decide the nodes of the tree so that the number of free parameters to be estimated is controlled by the amount of adaptation data. This technique prevents the performance of the adapted model from degrading due to the overfitting problem. In our experiments, speaker adaptation using structural eigenvoices improves recognition accuracy over the conventional eigenvoice adaptation method. The proposed method also provides improvements in recognition accuracy over conventional maximum likelihood linear regression (MLLR) and maximum a posteriori (MAP). Another source of difficulty in conventional eigenvoice adaptation is numerical problems. Principal component analysis is too high a price to pay for rapid speaker adaptation, especially in cases with large HMM systems like continuous speech recognizers. An eigenvoice merging (EVM) method can solve the problem. This method merges two sets of eigenvoices without SD models. Given additional speaker dependent models, this method merges initial eigenvoices with eigenvoices obtained from only the additional speaker dependent models to calculate new eigenvoices, rather than performing principal component analysis (PCA) on the collection of the initial and additional speaker dependent models. The selective eigenvoice merging (SEVM) method is also proposed. In this method, we can find the combination of eigenvoices most suitable for adaptation data using EVM with two or more pre-defined sets of eigenvoices. Experimental results show that the performance reduction due to EVM is almost zero, while the computation time is remarkably reduced and the recognition rate is higher with SEVM than without SEVM.

음성은 인간과 기계가 의사소통을 하는 가장 자연스러운 수단 중 하나로 여겨지고 있다. 많은 연구에서 다수의 다양한 특성을 가지는 화자들에 대해 낮은 오류율을 가지는 음성 인식 시스템을 시도하여 왔고, 그 결과 최근 들어서는 매우 높은 성능을 가지는 음성 인식 시스템들이 개발되었다. 하지만, 같은 한 명의 화자에 대해 실험하였을 때 그 화자가 훈련 자료를 제공하여 만들어진 화자 종속 시스템이 불특정 다수의 화자들로부터 얻어진 훈련 자료를 이용하여 만들어진 화자 독립 시스템에 비해 높은 성능을 내는 것이 일반적이다. 화자 적응이란 사용자가 제공하는 적은 양의 음성 자료를 이용하여 화자 독립 모델로부터 사용자에게 특화된 모델을 만들어 내는 것으로 화자 독립 모델보다 높은 성능을 내기 위하여 사용된다. 화자 적응을 적용하기 위해서는 적응 자료의 양이 매우 중요한 요소가 되는데, 이것은 응용 분야에 따라 매우 다양하게 나타날 수 있다. 예를 들어, ARS 시스템과 같은 경우에는 사용자에게 많은 적응 자료를 요구하기 힘들 것이고, 받아 쓰기 시스템인 경우에는 한 사용자가 매우 오랜 시간동안 사용하게 되므로 많은 양의 적응 자료를 얻을 수 있을 것이다. 화자 적응 중에 특히 30초 미만의 소량의 자료를 이용하여 화자 적응을 하는 것을 고속 화자 적응이라 하는데, 최근 들어 많은 관심을 받고 있다. 고속 화자 적응을 하는 방법 가운데 가장 널리 쓰이는 방법중에 하나는 eigenvoice를 이용하는 화자 적응 방법이다. 이 방법은 사용자의 모델을 소수의 기저벡터들의 선형합으로 추정하는 방법인데, 이때, 기저벡터들을 "eigenvoice"라고 하고, 많은 수의 화자 종속 모델들로 부터 PCA를 통해 얻을 수 있다. 이 방법은 기존에 사용하던 MAP나 MLLR 방법에 비해 적은 양의 적응 자료에 대해 우수한 성능을 나타내는 장점을 가지고 있으나, 적응 자료의 양이 조금만 증가하여도 그 성능이 더이상 증가하지 않는 단점과 PCA를 이용하여 eigenvoice를 계산하는 데 너무 많은 시간이 걸린다는 단점을 가지고 있다. 본 연구에서는 이러한 eigenvoice 화자 적응 방법의 단점을 보완하기 위하여 eigenvoice 구조화와 eigenvoice 병합 방법을 제안한다. 기존의 eigenvoice 화자 적응 방법의 적응 자료의 양이 조금만 증가하여도 성능이 더이상 증가하지 않고 수렴된다는 단점은 목적 화자의 모델을 추정할 수 있는 파라미터의 수가 너무 적고 고정되어 있기 때문이다. 본 연구에서는 이러한 문제점을 해결하기 위하여 eigenvoice를 구조화 하고 적응 자료의 양에 따라 추정할 파라미터의 수를 조정할 수 있는 방법을 제안한다. 먼저 화자 독립 모델에 있는 모든 평균 벡터들을 서로 간의 거리에 기반해서 트리 구조로 만든다. 다음 각 노드에 대하여 화자 종속 모델로부터 대응되는 평균 벡터들을 같은 순서대로 나열하면 노드별로 sub-supervector를 만들 수 있다. 각 노드에 만들어진 sub-supervector들에 대해 PCA를 적용하면 원하는 수의 sub-eigenvoice를 얻을 수 있다. 적응 자료가 입력되면 적응 자료의 양에 따라 만들어진 트리에서 노드를 선택하고 선택된 노드에서 목적 화자의 모델을 부분적으로 추정하고 다시 통합함으로써 추정할 수 있는 파라미터의 수를 조정할 수 있고, 더 자세하고 세밀한 모델링이 가능해 진다. 실험 결과 적응 자료의 양이 매우 적을 때에는 기존의 eigenvoice 방법과 비슷한 성능을 보이지만, 적응 자료의 양이 증가함에 따라 인식률이 더 증가하는 결과를 얻을 수 있었다. 기존에 사용하던 eigenvoice 화자 적응 방법의 또다른 단점은 적응 자료의 특성과는 관계없이 사전에 고정된 eigenvoice만 사용할 수 있다는 것인데 이것은 PCA를 이용하여 eigenvoice를 계산하는데 너무 많은 시간이 소요되기 때문에 적응 자료 입력후에 다시 eigenvoice를 업데이트하는 것이 힘들기 때문이다. 본 연구에서는 이러한 문제점을 해결하기 위하여 eigenvoice 병합 방법을 제안한다. 이 방법을 사용하면 미리 계산되어 있는 두 세트의 eigenvoice들을 직접 병합할 수 있어 화자 종속 모델을 업데이트하고 다시 eigenvoice를 계산하는 데 걸리는 시간을 현저히 감소시킬 수 있다. eigenvoice 병합 방법은 여려 응용 분야에 사용될 수 있는데, 본 연구에서는 ``선택적 eigenvoice 병합 방법``을 제안하였다. 이 방법은 사전에 여러 화자 특성과 잡음 환경을 나타내는 eigenvoice 세트들을 만들어 놓고 적응 자료가 입력되면 가장 알맞은 eigenvoice 세트를 선택하거나, 우도를 최대화하는 모델이 구성되도록 본 연구에서 제안한 eigenvoice 병합 방법으로 eigenvoice 세트들을 병합하여 사용한다. 이러한 응용분야는 제안한 eigenvoice 병합을 사용하지 않는다면 새로운 eigenvoice를 추정하는데 너무 많은 시간이 소요되어 사용할 수 없을 것이다. 제안한 방법을 검증하기 위한 실험에서는 eigenvoice 병합 방법의 경우 인식률의 하락은 거의 없으면서도 계산 시간을 현저히 줄일 수 있었다. 또한 "선택적 eigenvoice 병합" 방법의 경우에도 제안한 방법을 사용하지 않았을 때보다 성능을 높일 수 있음을 보여주었다.

서지기타정보

서지기타정보
청구기호 {DCS 10040
형태사항 viii, 66 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최동진
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References: p. 64-66
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서