서지주요정보
Prediction of prosodic phrase boundaries for Korean text-to-speech conversion = 한국어 문서-음성 변환을 위한 운율경계 예측에 관한 연구
서명 / 저자 Prediction of prosodic phrase boundaries for Korean text-to-speech conversion = 한국어 문서-음성 변환을 위한 운율경계 예측에 관한 연구 / Yeon-Jun Kim.
발행사항 [대전 : 한국과학기술원, 2000].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8010597

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 00007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9006412

소장위치/청구기호

서울 학위논문 서가

DCS 00007 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis describes a methodology in the prediction of prosodic phrase boundaries for Korean text-to-speech (TTS) conversion systems. The proposed method in this thesis is modeled using the temporal constraints of the human articulatory system and the syntactic influence emanating from dependency relation which is effective in freer word-order languages. TTS conversion, a well-known technique of communication between humans and computers, is the process of generating speech from text and the ultimate goal of speech synthesis; for any string of words a TTS system can approximate the way a human would read these same words. Although the need for communication between humans and computers is increasing as computers become more prevalent, currently, TTS systems are used only for several restricted applications because of their poor synthetic quality. Prosody plays an important role in speech production as well as speech understanding. In continuous speech, speakers tend to group words into phrases whose boundaries are marked by duration and intonational cues, and many phonological rules constrain operation only within such phrases, usually termed prosodic phrases. Therefore, a computational model for prosodic structure is necessary for high quality TTS conversion since the correct assignment of phrase breaks can increase the intelligibility of a sentence as well as improve its naturalness. In this work, several statistical models for predicting the prosodic phrase boundaries of speech are proposed. The computational prosody model in this work is automatically trainable only with syntactic information and can be incorporated into existing TTS conversion systems. This work makes use of dependency grammar, which is known to be more effective for parsing word-order free languages including Korean. For prosodic boundary prediction, various relevant features extracted from text analysis are incorporated instead of an input word sequence itself, whose motivation and effect on the prosodic phrasing are dealt with using statistical models. In the empirical results, the proposed prosodic boundary prediction models were evaluated and improved, and should be able to be incorporated successfully into existing TTS conversion systems. Another contribution of this thesis is the introduction of the speaking rate into the prediction of prosodic boundaries for variable speaking rate and multi-speaker TTS systems. There are many factors which influence the variability of prosodic phrasing, such as syntactic structure, focus, speaker differences, speaking rate and the need to breathe. Among them, the modeling of speaking rate is extremely useful at the development level, using the TTS research tool. As a basis for the description of spontaneous speech data and their labeling, however, it is more helpful to set up relative categories of speech rate change, indicating slowing down or speeding up with regard to a preceding stretch of speech. This work shows a potential way to make use of a read speech corpus in the training of prosodic phrasing for spontaneous speech.

본 논문에서는 한국어 문서-음성 변환에서 문장의 구문 구조로부터 인간의 발성과 유사한 운율구조를 예측하기 위한 방법을 제안한다. 본 논문에서 제안한 방법은 한국어의 특성을 고려한 문법 기술 방법인 의존관계를 이용하여 인간 발성의 시간적 제약을 모델링하고, 이를 운율경계 예측에 적용함으로써 예측오류율을 감소시키는 효과를 얻을 수 있었다. 문서-음성 변환은 인간과 컴퓨터 간의 통신을 위한 방법중의 한가지로써, 컴퓨터의 보급이 확산되면서 더욱 그 필요성이 강조되고 있다. 그러나 지금까지도 사용자가 만족할만한 합성음을 생성해내지 못하기 때문에, 실용화에 많은 어려움을 겪고 있다. 기존 합성음의 음질을 보다 향상시키기 위해서는 입력된 문장으로부터 합성음의 자연성을 좌우하는 운율구조를 추출하는 것이 무엇보다도 중요하다. 운율구조에 대한 연구는 오랫동안 계속되어 왔으나, 음성 그리고 운율이 지닌 문제의 복잡성때문에 아직도 만족할만한 결과를 얻지 못하고 있으며 한국어 문서-음성 변환과 관련해서는 더욱 부족한 실정이다. 본 연구에서는 어순이 자유로운 한국어에 적합한 의존문법으로 분석된 결과로부터 운율구조를 추출하고자 한다. 한국어의 경우, 문장내에서 운율경계가 발생하는 위치가 의존관계에서의 지배소와 일치하는 경우가 빈번하다. 이러한 성질을 인간의 호흡과 관련지어 운율경계 예측 모델에 적용하면 적은 양의 정보로도 효과적인 운율구조를 추출하는 것이 가능함을 보인다. 제안된 모델은 기존의 여러가지 모델과의 비교 실험에서도 더 나은 성능을 보임을 알 수 있었다. 또한 본 논문에서는 화자의 발음속도와 화자의 변화에 따른 운율구조의 변이에 대하여 고찰하였다. 현재의 운율에 대한 연구가 주로 낭독체를 대상으로 이루어졌음을 감안할때, 화속과 화자의 변화는 고품질, 대화체, 다수화자 등을 목표로 하는 앞으로의 문서-음성 변환 시스템을 위하여 해결해야 할 문제이다. 이에 본 연구에서는 다수 화자의 음성으로부터 운율경계를 추출하여 이를 운율경계 예측에 이용하여 보다 강인한 경계 예측이 가능함을 보인다.

서지기타정보

서지기타정보
청구기호 {DCS 00007
형태사항 vi, 90 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김연준
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Statistical prosodic boundary prediction for korean text-to-speech conversion". Computer processing of oriental languages, (Submitted)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 84-90
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서