서지주요정보
한국어 텍스트 음성 변환 시스템을 위한 엔드투엔드 합성 방식 연구 = (An) end-to-end synthesis method for Korean text-to-speech system
서명 / 저자 한국어 텍스트 음성 변환 시스템을 위한 엔드투엔드 합성 방식 연구 = (An) end-to-end synthesis method for Korean text-to-speech system / 최연주.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032108

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18089

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A typical statistical parametric speech synthesis(text-to-speech, TTS) system consists of several modules, such as a text analysis module, an acoustic modeling module, and a speech synthesis module based on signal processing. As a result, there are problems such that expert knowledge of each module is required and errors generated in each module accumulate [during training ans synthesis]. Therefore, there is a need for an end-to-end TTS system capable of synthesizing voice signals directly from an input string. In this study, we implemented and analyzed an end-to-end Korean TTS system using Google's end-to-end TTS system, Tacotron. Tacotron is based on sequence-to-sequence model with attention mechanism. Using Korean dataset spoken by a female speaker, which is 37% of the dataset that Google has used for training Tacotron, we obtained MOS 2.98 and DMOS 3.25. To train the model with a small amount of training data, the maximum [value of] n of n-grams modeled by the encoder was used as 5. We also used a highway network as a post-processing network to implement Korean TTS system using Korean characters as input.

전형적인 통계적 파라미터 방식 텍스트 음성 변환(text-to-speech, TTS) 시스템은 텍스트 분석부, 음향 모델링부, 신호처리 기반의 음성 합성부 등의 여러 모듈로 이루어져 있다. 이로 인해 각 모듈에 대한 전문적인 지식이 필요하며 각 모듈에서 발생하는 오류가 쌓이는 문제점이 존재한다. 따라서 입력 문자열로부터 바로 음성신호를 합성할 수 있는 엔드투엔드 TTS 시스템의 필요성이 부각되고 있다. 본 연구에서는 구글의 엔드투엔드 TTS 시스템인 Tacotron을 활용하여 엔드투엔드 한국어 TTS 시스템을 구현하고 분석하였다. Tacotron은 attention 메커니즘을 포함한 시퀀스-투-시퀀스 모델에 기반한다. 구글이 사용한 훈련 데이터의 37% 분량의 한국어 여성 단일화자 훈련 데이터를 이용하여 주관적 음질 평가를 시행했을 때 MOS 2.98, DMOS 3.25를 얻었다. 적은 양의 훈련 데이터로 모델을 훈련시키기 위해서 인코더에서 모델링하는 n-gram의 최대 n을 5로 사용했다. 또한 한글을 입력 문자로 사용하는 한국어 TTS 시스템을 구현하기 위해 후처리 네트워크로서 highway 네트워크를 사용했다.

서지기타정보

서지기타정보
청구기호 {MEE 18089
형태사항 iv, 31 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Yeunju Choi
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Hoirin Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 27-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서