한국과학기술원 도서관

서지주요정보
(A) nonlinear voice conversion method using gaussian mixture model = 가우시안 혼합 모델을 이용한 비선형 화자변환
서명 / 저자	(A) nonlinear voice conversion method using gaussian mixture model = 가우시안 혼합 모델을 이용한 비선형 화자변환 / Gia Vu Hoang.
발행사항	[대전 : 한국과학기술원, 2006].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8017483

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 06029

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Voice conversion is the technique for modifying the speech signal of a source speaker so that it sounds as if it had been uttered by another target speaker. There have been many methods being proposed for voice conversion, among which the linear transformation methods using the Gaussian Mixture Models (GMM) have been shown to outperform the others. In this thesis, we identify the problem of the GMM-based linear transformation methods, the over-smoothing effect of the converted speech, and propose a new GMM-based nonlinear transformation method using Radial Basis Function networks. Our system is implemented in the context of the Harmonic plus Noise Model to achieve high quality modification of speech. Our experiments show that our system succeeds in converting speech and our nonlinear method outperforms linear transformation methods for large number of mixture components.

화자변환이란 원시화자의 음성에서 개인성을 나타내는 파리미터를 변환하여 목적화자의 개인성을 가진 음성으로 재합성하는 것을 말한다. 기존의 연구에 의하면 스펙트럼 포락과 같은 분절적 특성과 발화속도, 음성의 높낮이를 나타내는 F0 궤적과 같은 초분절적 특성이 음성의 개인성을 나타내는 대표적인 파라미터로 알려져 있다. 현재 화자변환 분야에서는 이러한 개인성 파라미터 중 스펙트럼 포락의 변환에 대한 연구가 활발하다. 기존의 스펙트럼 포락 변환에 관한 연구로는 코드북사상[Abe88], 신경회로망[Narendranath95], 선형 다변량 회귀[Baudoin96], 은릭 마코프 모델[Kim97], [Duxans04], 그리고 혼합 모델[Stylianou98] 등이 있으며, 그 중 가우시안 혼합 모델과 여기신호 예측 기법을 이용한 방법이 뛰어난 성능을 보이며, 문서-음성 변환 시스템과 같은 많은 응용분야에서 좋은 음질을 보이고 있다[Baudoin96], [Kain01], [Ye04]. 본 논문에서는 화자변환에 사용되는 여러 개인성 정보 중 스펙트럼 포락의 변환에 관한 연구를 수행하였다. 특히 다른 방법에 비해 성능이 뛰어나다고 알려진 가우시안 혼합 모델 기반의 선형변환법 [Stylianou98], [Kain98]을 기반으로 연구를 수행하였고, 이 방법의 문제점을 해결하기 위해 좀 더 일반화된 변환방법을 제시하였다. 그리고 제안한 시스템에서는 고품질의 변환음을 얻기 위하여 HNM을 이용하여 음성을 분석 및 재합성하였다. 본 논문의 기여는 다음과 같다. ㆍ 원시화자의 음성과 목적화자의 음성의 스펙트럼 포락의 상관계수가 작은 경우가 많이 목격되었으며, 이러한 경우 기존 방법인 선형함수를 이용하여 모델링 된 변환함수를 사용하는 경우 스펙트럼 포락 변환시 지나친 평탄화가 발생하게 된다. 따라서 음성 스펙트럼을 보다 자세히 표현할 수 있는 변환기법이 필요함을 확인하였다 ㆍ 본 논문에서는 Radial Basis Function 네트윅을 이용한 비선형 변환함수를 제안하였다. 기존 가우시안 혼합 모델 기반 화자변환 방법의 선형 변환 함수를 제안한 비선형 변환함수로 대체하였다. 자안한 방법은 선형 변환 함수의 LSE 방법을 국부적 비선형 함수로 일반화하였으며, 국부적 비선형 함수들은 RBF 네트윅으로 근사하였다. 기존 방법과의 실험결과 혼합 분포의 개수가 작은 경우 기존의 LSE가 더 나은 성능을 보였으나, 혼합 분포의 개수가 증가함에 따라 제안한 방법이 LSE방법에 비해 더 좋은 성능을 보임을 확인하였다.

서지기타정보

서지기타정보
청구기호	{MCS 06029
형태사항	vi, 39 p. : 삽화 ; 26 cm
언어	영어
일반주기	지도교수의 영문표기 : Yung-Hwan Oh 지도교수의 한글표기 : 오영환
학위논문	학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기	Reference : p. 37-39

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서