한국과학기술원 도서관

서지주요정보
Voice imitation based on speaker adaptivemulti-speaker speech synthesis model = 화자 적응형 다화자 음성합성 모델을 이용한 새로운 화자의 음성모사
서명 / 저자	Voice imitation based on speaker adaptivemulti-speaker speech synthesis model = 화자 적응형 다화자 음성합성 모델을 이용한 새로운 화자의 음성모사 / Young Gun Lee.
발행사항	[대전 : 한국과학기술원, 2018].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8032566

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18117

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently-developed deep learning based text-to-speech (TTS) models showed promising performance and possibility of multi-speaker TTS. However, current multi-speaker TTS models are not easily extensible to new speaker's voice and requires much time to retrain the model with new speaker's voice. Our approach can instantly imitate new speaker's voice using speaker adaptation technique. We proposed novel network architecture to enable this task and generated speech samples that are comparable to the existing multi-speaker TTS model. Moreover, we made improvement on baseline TTS model Tacotron by introducing additional connections. We also proposed and demonstrated a way to train speaker embedding to generate arbitrary voices by tuning its value.

본 논문에서는 다화자 음성합성 모델이 새로운 화자의 목소리를 모사하여 음성을 합성하는 방법에 대하여 다루었다. 기존의 다화자 음성합성의 경우 학습 데이터에 있던 목소리로만 음성합성이 가능하였고, 새로운 화자의 음성을 합성하기 위해서는 모델의 재학습이 요구되었다. 본 논문에서는 새로운 목소리에서 특징을 추출하고 이를 활용한 화자 적응을 통해 새로운 목소리를 즉시 합성하는 신경망 구조를 제안하였다. 더불어 제안한 모델의 기초가 되는 신경망 기반 음성합성 모델인 Tacotron의 개선 방안을 제시하였으며, 다화자 음성합성 모델에서 존재하지 않는 임의의 인물의 목소리를 합성하기 위한 화자 정보 벡터의 학습 방법을 제시하고 화자 정보 벡터의 각 차원 별로 값을 조정함에 따라 다양한 목소리로 음성 합성이 가능한 것을 보였다.

서지기타정보

서지기타정보
청구기호	{MEE 18117
형태사항	iv, 35 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 이영근 지도교수의 영문표기 : Soo Young Lee 지도교수의 한글표기 : 이수영
학위논문	학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기	References : p. 34-26

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서