To help listeners understand speech, speakers use prosody, which concerns the suprasegmental aspects of spoken language and carries information that is not readily expressed in the literal meaning of the words nor in their syntactic relations. As text-to-speech systems are being incorporated into more and more various applications like e-mail reader and language education system, human users'' desire for a higher quality system is increasing. However, while the current technology makes it possible to obtain a system whose intelligibility is quite high, the lack of natural prosody is the major source of barriers to meeting the users'' expectation. Therefore, it is the one with the greatest need for improvement. The goal in this thesis is to develop a computational model of Korean prosody that improves the naturalness of synthetic speech. We model four prosodic components which are phrasing, loudness, duration, and speech intonation. Then a prosody generation model is incorporated into our Korean text-to-speech system.
Our work on prosody modeling can be described by the following theoretical and experimental contribution. First, we suggest a novel Korean prosody structure from an engineering viewpoint to get a more tractable computational model of Korean prosody. Although various theories on Korean prosody structure have been devised, they are rather complicated and difficult to be embodied in a prosody generation module. Thus, we modify the conventional theories and show the appropriateness of the proposed structure in developing a prosody generator. Second, by taking a tree-based framework for prosody modeling, we scientifically discover the linguistic information saliently affecting Korean prosody and draw up rules for the syntax-to-prosody relationship. Since the tree-based framework gives the high comprehensibility in the prediction process, we are able to identify the underlying rules that control prosody by interpreting the trees. Third, we apply bootstrap aggregating and born again tree techniques proposed in the statistics community to predict the prosodic components more accurately. These techniques were experimentally shown to perform much better than the conventional tree-based predictors. Finally, for the prediction of fundamental frequency and energy contours, we propose a vector-regression tree that is a vector-extended version of a regression tree and also apply the above two techniques to get an improved performance.
In this study, we constructed annotated text and speech corpora on a scale larger than the existing ones for modeling Korean prosody and evaluated our approach through extensive experiments. By the deep exploration of constructed trees, we found out the structure of linguistic rules on prosody and showed that it was strongly related with the findings in the field of Korean phonology. When we compared our approach with previous ones, the result we obtained was quite promising. It yielded a result comparable to or better than other approaches in objective and subjective evaluation, which indicates that natural prosody has been produced.
청자가 음성을 좀 더 잘 이해할 수 있도록 하기위해, 화자는 운율을 사용하며, 운율이란 음성 언어의 초분절적인 면에 관한 것으로 단어의 사전적 의미나 구문 관계가 표현할 수 없는 정보를 운반한다. 문서 음성 변환 시스템이 전자 우편 낭독기 혹은 언어 교육 시스템과 같은 다양한 응용 분야에 점점 더 활용됨에 따라, 더 좋은 변환 시스템에 대한 사용자들의 요구는 계속 커지고 있다. 그러나, 현재의 기술 수준은 고품질 명료도의 변환 시스템을 가능케하였지만, 합성음의 부자연스러운 운율은 여전히 사용자 요구를 만족시키는데 가장 큰 장벽이 되며, 결과적으로 운율은 가장 향상되어야 될 부분이다. 본 논문의 목적은 한국어 합성음의 자연성을 향상시킬 수 있는 운율 계산 모델을 개발하는 것이다. 우리는 네 가지 운율 요소인 음의 경계, 크기, 길이, 억양을 모델링하고, 구축된 운율 생성 모델을 한국어 문서 음성 변환 시스템에 적용시킨다.
운율 모델링에 관한 본 연구는 다음의 이론적 주장과 실험적 결과에 의해 설명될 수 있다. 우선, 좀 더 다루기 편한 계산 모델을 얻기 위해, 공학적 측면을 고려한 새로운 한국어 운율 구조를 제안한다. 한국어 운율 구조에 대해서는 많은 이론들이 주장되어 왔지만, 대부분의 경우 운율 생성 모듈에서 이용하기에는 다소 복잡하거나 다루기 힘든 경향이 있었다. 그러므로, 여기에서는 기존의 이론들을 수정한 후, 운율 생성 모듈 개발에 있어서 제안한 구조가 적합하다는 것을 보인다. 두 번째로, 운율 모델링에 트리 기반 구조를 이용하여, 한국어 운율에 가장 많이 영향 미치는 언어 정보를 과학적 방법으로 찾고, 구문과 운율 사이의 관계 규칙들을 추출한다. 트리 기반 구조는 예측 과정을 이해하기가 매우 용이하므로, 우리는 생성된 트리들을 해석하여 운율을 제어하는 기저 규칙들을 쉽게 찾을 수 있다. 세 번째로, 운율 요소들을 좀 더 정확히 예측하기 위해, 통계학 분야에서 제안된 bootstrap aggregating과 born again tree 기술을 적용한다. 이 기술들은 실험을 통해 기존의 트리 기반 예측기들보다 더 좋은 성능을 나타내는 것으로 알려져 있다. 마지막으로, 기본 주파수 및 에너지 궤적 예측을 위한, 회귀 트리의 벡터 형태인 벡터 회귀 트리를 제안하고 아울러 향상된 결과를 얻기 위해 위의 두 가지 방법들을 이 트리에 또한 적용시킨다.
본 연구에서는 한국어 운율 모델링을 위한 기존의 어떠한 코퍼스들보다도 더 많은 양의 문서 및 음성 코퍼스를 구축 및 레이블링하였고, 광범위한 실험을 통해 우리의 방법을 평가하였다. 구축된 트리들의 섬세한 조사를 통하여 운율에 관한 언어 규칙 구조를 찾았고, 그 구조가 한국어 음운론 분야에서 주장되는 것들과 깊은 관계가 있음을 보였다. 기존의 방법들과의 비교 실험에서는 본 방법이 더 효과적이었다. 객관적 및 주관적 평가에서 다른 방법들과 대등하거나 더 우수한 결과를 보임으로 해서, 자연스러운 운율이 생성된다는 것을 나타내었다.