Personal prosody model based korean emotional speech synthesis = 개인 운율 모델 기반 한국어 감정 음성 합성
서명 / 저자 Personal prosody model based korean emotional speech synthesis = 개인 운율 모델 기반 한국어 감정 음성 합성 / Ho-Joon Lee.
저자명 Lee, Ho-Joon ; 이호준
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DCS 10036







Speech is the most basic and widely used communication method for expressing thoughts during human-human interaction and has been studied for user-friendly interfaces between humans and machines. Recent progress in speech synthesis has produced artificial vocal results with very high intelligibility, but the quality of sound and the naturalness of inflection remain major issues. Today, in addition to the need for improvement in sound quality and naturalness, there is a growing need for a method for the generation of speech with emotions to provide the required information in a natural and effective way. For this purpose, various types of emotional expression are usually transcribed first into corresponding datasets, which are then used for the modeling of each type of emotional speech. This kind of massive dataset analysis technique has improved the performance of information providing services both quantitatively and qualitatively. In this dissertation, however, I argue that this approach does not work well with interactions that are based on personal experience such as emotional speech synthesis. We know empirically that individual speakers have their own ways of expressing emotions based on their personal experience, and that massive dataset management may easily overlook these personalized and relative differences. Therefore, this dissertation examines the emotional prosody structures of four basic emotions such as anger, fear, happiness, and sadness, by considering their personalized and relative differences. As a result, this dissertation addresses the tendency for the emotional prosody structures of pitch and speech rate to depend more on individual speakers (i.e. personal information) than intensity and pause length do. This personal information enables the modeling of relative differences of each emotional prosody structure (i.e. personal prosody model), the possibilities of which were dismissed earlier during the application of massive dataset analysis technique. Based on the personal prosody model, we develop a Korean emotional speech synthesis system that can add emotional information to spoken expressions. In order to convert input sentence into speech, we used a commercial Korean TTS system with a female voice. The evaluation results show that we can successfully incorporate this personal information into an emotional prosody synthesis system, which enhances the recent progress in the recognition rate for happiness and other emotions. We have achieved 48.5% of the recognition rate for happiness among four emotions, which used to be close to the chance level. And from a series of repeated perception tests supported by enough prior training experience, the average recognition rate has improved up to 95.5% for all emotions. We also show the applicability of the proposed Korean emotional speech synthesis system with the implementation of a speech interface of assistive robots designed for the elderly that can modify its prosodic structure according to sentence types and emotional states.

감정은 개인의 경험에 기반한 심리상태로, 최근 다양한 형태의 사람과 기계 사이의 상호작용이 급속히 증가하면서 상호작용에 기반한 여러 분야에 직간접적인 영향을 미치고 있다. 지금까지 감정을 인식하고 표현하려는 많은 연구에서는 감정의 종류를 범주화 하여 해당 범주의 감정을 인식 및 표현하는 과정에서 보편성을 찾으려고 노력해 왔다. 이러한 보편성에 기반한 접근 방법은 정보기술 분야의 정보습득, 정보가공, 정보표현 등의 과정에서 성공적인 결과를 보였었고, 감정에 기반한 상호작용에서도 어느 정도 긍정적인 결과를 보여주고 있다. 본 연구에서도 감정 음성 합성에 관한 초기 연구에서 이러한 보편성에 기반하여 해당 감정에 적합한 운율구조를 파악하는 데 초점을 맞췄었고, 그 결과 기쁨, 슬픔, 화남의 감정과 높은 연관성을 보이는 운율구조를 분석할 수 있었다. 그러나 이러한 분석결과를 기반으로 개발한 감정 음성 합성 시스템에서 일부 감정의 인식결과가 매우 좋지 않다는 것이 여러 차례의 실험을 통해서 확인되었다. 처음에는 이러한 문제를 운율구조에 기반한 감정 합성의 한계로 생각하였으나, 합성된 감정 음성과 실제 사람에 의해 발화된 감정 음성을 조합하여 실행한 인식 테스트에서도 실제 발화된 감정 음성이 좋지 않은 인식결과를 보이는 이유를 설명하기에는 어려움이 있었다. 감정은 개인의 경험에 기반한 심리상태이므로 감정의 인식 및 표현 역시 개인의 경험에 기반하여 이루어지게 된다. 따라서 개인의 특성이 충분히 반영되지 못한 채 보편성을 강조하게 되면 개별적이고 상대적인 형태의 정보는 분석 및 표현 과정에서 사라지게 된다. 본 논문에서는 감정을 개별적이고 상대적인 형태의 정보로 보고, 이러한 정보를 감정 음성 합성 시스템에서 표현하는 방법에 대해 논의한다. 이를 위해 기쁨, 슬픔, 화남, 분노의 감정에 따른 운율정보를 사용자 모델의 형태로 분석하여, 각 발화자가 가지는 특징적 감정 표현방식을 음의 높낮이 곡선, 음의 평균적 높낮이, 음의 평균적 세기, 음의 평균적 발화길이, 휴지의 평균적 발화길이의 변화로 살펴보고, 이러한 사용자 모델이 감정 음성합성 시스템의 합성결과에 미치는 영향을 살펴본다. 또한 감정음성 표현의 상대적인 특징을 분석하기 위해서 사용자 모델에 따른 감정 음성합성 결과를 평가할 때, 피실험자에게 합성된 감정음성 표현의 상대적인 특징을 인지할 수 있는 충분한 적응 기간을 주고 인식 결과의 변화를 살펴본다. 그 결과 사용자 모델을 적용한 감정 음성합성 결과의 인식 테스트에서는 이전 결과에 비해 상당한 인식률의 향상을 확인할 수 있었고, 감정음성 표현의 상대적인 특징을 고려한 인지 테스트에서는 거의 정확한 인식률을 확인할 수 있었다. 별도의 적응 기간을 주지 않았던 인식 테스트 결과인 사용자 모델의 적용에 따른 인식률의 향상은 해당 감정의 표현력에 대한 평가라고 해석되며, 상대적 특징을 고려하여 충분한 적응 기간을 준 인지 테스트 결과는 감정 음성표현의 청각적 구분에 대한 평가라고 해석될 수 있다.


청구기호 {DCS 10036
형태사항 x, 86 p. : 삽도 ; 26 cm
언어 영어
일반주기 Appendix A: K-ToBI Labeling Results B: Pearson's Chi-Square Test Results
저자명의 한글표기 : 이호준
지도교수의 영문표기 : Jong-C. Park
지도교수의 한글표기 : 박종철
수록잡지명 : "Customized Message Generation and Speech Synthesis in Response to the Characteristic Behavioral Patterns of Children". Lecture Notes in Computer Sceience, v.4552, pp.114-123(2007)
수록잡지명 : "Constructing SSML Documents with Automatically Generated Intonation Information in a Combinatory Categorial Grammar Framework". International Journal of Computer Processing of Oriental Languages, v.17.no.4, pp.223-238(2004)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References: p. 68-74
주제 natural language processing
korean emotional speech synthesis
prosody modeling
personal model
한국어 감정 음성 합성
운율 모델링
개인 모델
QR CODE qr code