Prosody control in a large corpus-based TTS system = 대규모 코퍼스 기반 TTS 시스템에서의 운율 제어
서명 / 저자 Prosody control in a large corpus-based TTS system = 대규모 코퍼스 기반 TTS 시스템에서의 운율 제어 / Heo-Jin Byeon.
발행사항 [대전 : 한국과학기술원, 2004].
학술문화관(문화관) 보존서고

DCS 04011

A text-to-speech (TTS) system converts an arbitrary text to synthetic speech. As TTS systems are being incorporated into more and more various applications like e-mail reader and language education system, human users' desire for a higher quality system is increasing. Recently, large corpus-based concatenative speech synthesis has been the most popular approach for constructing TTS systems. With this method, it should be possible to synthesize more natural sounding speech than can be produced with a small set of controlled units. Although intelligibility of the TTS system with this method is extremely good and certainly good enough for many real applications, the lack of natural prosody is the major source of barriers to meeting the users' expectation. Prosody, therefore, is the feature within TTS systems that is most in need of improvement. In this thesis, we develop a large corpus-based Korean TTS system and propose prosody control methods for the system to improve the naturalness of synthetic speech. The implemented TTS system uses a triphone as a basic unit for concatenation, and has 400,042 triphone instances as a speech corpus, which contains 16,072 unique triphone types. Since a triphone includes context information, it can present all possible allophones. However, it has two problems to use a triphone as a basic synthesis unit. One is the absence or sparsity of some triphone types, and the other is the size of search space caused by some triphone types which have too many instances. In a text selection process where a set of sentence for recording is prepared, we use a greedy algorithm with the score table designed in consideration of the triphone coverage and the balance of instances in an effort to avoid these problems. After recording speech corpus, we use a bottom-up clustering and three backing off trees to solve the sparsity problem. To reduce search space for real-time processing, we use pre-selected candidate unit lists, and the performance tests prove that the lists reduce search space effectively. We define eight sub-cost functions for selecting appropriate unit instances to make natural synthetic speech. The target cost, which is an estimate of the difference between a unit in the given corpus and a desired target for unit selection, plays an important role in prosody control. To reflect prosody, the differences of acoustic parameters such as Fa and duration are used as a part of the target cost. In this thesis, we propose event-driven Fo weighting methods for intonation control. These weighting methods are based on the fact that the targets can be classified into perceptually more important ones or less important ones in synthetic speech. To determine whether a given target is perceptually important, we define intonational events using tonal segments, and predict event locations and measure their perceptual importance using classification and regression trees (CART). For segmental duration control, we design a target sub-cost function and propose its weighting method in consideration of the prospective prediction error and pre-pausal lengthening. The proposed target cost weighting methods result in more natural synthetic speech from a prosodic viewpoint.

문서-음성 변환(text-to-speech: TTS) 시스템은 임의의 문서를 합성음으로 변환하는 시스템으로 인간과 기계 사이의 의사소통 도구로 이용된다. 문서-음성 변환 시스템이 전자 우편 낭독기 혹은 언어 교육 시스템등과 같은 다양한 응용 분야에 적용됨에 따라, 사용자들의 기대에 맞는 고품질 합성음 생성이 요구되고 있다. 최근, 컴퓨터 연산능력의 향상과 저장공간의 대량화에 따라 문서-음성 변환 시스템을 구축하기 위한 합성 방식으로, 대규모 음성 코퍼스에 기반한 합성방식이 널리 쓰이고 있다. 이 방법으로 구축된 시스템은 기존의 소규모의 조율된 합성단위를 이용하여 합성음을 생성하는 시스템보다 자연스러운 합성음을 얻을 수 있다. 이 합성 방식을 이용한 시스템은 고품질의 명료도와 실생활에 적용하기에 충분한 음질의 합성음을 생성할 수 있다고 여겨지지만, 합성음의 부자연스러운 운율은 일반 사용자들의 요구를 만족시키는데 가장 큰 장애 요소가 되고 있다. 즉, 운율은 문서-음성 변환 시스템이 자연스러운 고품질 합성음을 생성하기위해서 가장 향상되어야 될 요소이다. 본 논문에서는 대규모 음성 코퍼스에 기반한 한국어 문서-음성 변환 시스템을 구축하고, 이러한 시스템에서의 합성음 자연성 향상을 위한 운율제어 방법들을 제안한다. 본 연구에서 구현한 문서-음성 변환 시스템은 트라이폰을 합성의 기본 단위로 이용하며, 시스템이 사용하는 음성 코퍼스는 16,072개의 서로 다른 종류를 갖는 400,042개의 트라이폰으로 이루어져 있다. 트라이폰은 주어진 음소의 좌ㆍ우 문맥 정보를 함께 갖는 음소이므로, 음소의 가능한 모든 이음을 표현할 수 있는 장점이 있다. 그러나 트라이폰을 합성의 기본 단위로 이용하는 것은 두 가지 문제점이 있다. 첫째는 음성 코퍼스에 어떤 트라이폰 종류는 전혀 포함되지 않거나 있다하더라도 매우 적은 수만 존재할 수 있다는 것이며, 둘째는 다른 어떤 트라이폰 종류는 그 수가 너무 많아 합성시 탐색공간의 크기가 커진다는 것이다. 이러한 문제들을 해결하기 위한 노력의 일환으로, 본 논문에서는 녹음을 위한 문장들을 선택할 때 서로 다른 트라이폰 종류의 수와 각 트라이폰의 발생수를 고려하여 설계된 점수표(score table)를 이용한 탐욕 알고리즘(greedy algorithm)을 사용한다. 음성 코퍼스를 구축한 후에는, 희소성 문제를 해결하기 위해 하향식 군집화(bottom-up clustering)와 세 개의 백킹 오프 트리(backing off tree)를 이용한다. 또한, 탐색 공간 문제를 해결하기 위해서는 미리 선택된 후보 단위 목록(pre-selected candidate unit list)을 이용하며, 이 목록을 이용한 방법은 실험을 통해 탐색 공간을 효과적으로 줄일 수 있음을 확인하였다. 끝으로 구현된 시스템에서는 자연스러운 합성음을 생성하기 위한 트라이폰 선택에서 사용할 8개의 선택 비용 함수를 정의하여 사용한다. 합성음 생성을 위한 단위음 선택시 음성 코퍼스내의 후보들과 요구되는 목표와의 차이를 평가하기 위한 목표 비용은 운율제어에서 중요한 역할을 한다. 즉, 단위음 선택시 $F_0$와 음의 지속시간 등과 같은 운율 요소의 차이를 목표 비용으로 사용하므로써 합성음에 원하는 운율을 적용할 수 있다. 본 논문에서는 억양 제어를 위해 사건 주도 $F_0$ 가중 방법들을 제안한다. 이 가중 방법들은 요구되는 단위음 목표들이 합성음 내에서 지각적으로 중요한 것들과 그렇지 않은 것들로 구분될 수 있다는 사실에 기반한다. 제안한 방법은 각 목표들의 지각적 중요도를 결정하기 위해 음조 단편(tonal segment)을 이용한 억양 사건을 정의하고 사건 위치 예측과 각 사건의 지각적 중요도는 CART (classification and regression trees)를 이용하여 예측한다. 또한, 음의 지속시간 제어를 위해 예기되는 예측 에러와 휴지기 전의 음의 길어짐 현상(pre-pausal lengthening)을 이용한 지속시간 비용 함수 및 이의 가중 방법을 제안한다. 제안된 목표 가중 방법들은 문서 음성 변환 시스템이 운율적 관점에서 보다 자연스러운 합성음을 생성할 수 있도록 한다.


청구기호 {DCS 04011
형태사항 vii, 93 p. : 삽화 ; 26 cm
언어 영어
일반주기 Appendix : 1, Romanization of korean texts, - 2, Phone articulation method, - 3, Viterbi algorithm
저자명의 한글표기 : 변효진
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 86-93





