In this thesis, a novel emotional singing voice synthesis system is considered. There were various approaches to express emotion between human and machine or robot through varying facial expression, action and synthesized speech of a robot. Although singing is known as an effective way for expressing emotion, there is no research using singing to express emotion. To synthesize the singing voice with emotion, the statistical parametric synthesis system is used. The statistical parametric synthesis system uses a singing database which is composed of various melodies sung neutrally with restricted set of words and hidden semi-Markov models (HSMMs) of notes ranging from G3 to E5 to construct statistical information. The procedure of statistical parametric synthesis system is composed of mainly two parts, training and synthesis. In training part, both spectrum and excitation parameter are extracted from a singing database, and the statistical information of spectrum and excitation parameter for each note is constructed. Three steps are taken in the synthesis part: (1) Pitch and duration are determined according to the notes indicated by the musical score; (2) Features are sampled from appropriate HSMMs with the duration set to the maximum probability; (3) Singing voice is synthesized by the mel-log spectrum approximation (MLSA) filter using the sampled features as parameters of the filter. Emotion of a synthesized song is controlled by varying the duration, the vibrato parameters and the timbre according to the Thayer`s mood model which defines emotions in tense and energy axis. Perception test is performed to evaluate the synthesized song. The results show that the algorithm can control the expressed emotion of a singing voice given a neutral singing database.
이 학위논문에서는 노래를 이용하여 감정을 전달하기 위한 새로운 방법이 시도되었다. 사람과 로봇간의 감정을 전달하기 위한 기존의 방법은 표정변화, 행동 그리고 합성된 음성의 변화를 통한 시도만이 존재한다. 하지만, 노래를 이용하여 감정을 전달하는 것이 효과적인 방법임에도 불구하고 이와 같은 방법은 시도되지 않았다. 노래를 감정과 섞어 합성하기 위해서 매개변수를 이용한 통계적 합성방법을 이용하였다. 매개변수를 이용한 통계적 합성방법은 중립적인 감정으로 부른 노래 데이터 베이스를 이용하였고, 은닉 준마르코프 모델을 이용하여 G3부터 E5까지의 음계에 대한 통계적인 정보를 구축하였다. 매개변수를 이용한 통계적 합성방법은 훈련과정과 합성과정으로 구성된다. 훈련과정에서는 데이터 베이스에 존재하는 각 노래로부터 스펙트럼과 익사이테이션 매개변수가 추출되고, 각 음계별로 통계적인 정보가 구축된다. 합성과정은 크게 세 부분으로 구성된다: (1) 주어진 악보에 의해 음의 높이와 길이 정보가 결정된다; (2) 길이에 관한 확률분포를 최대화하는 값으로 길이가 결정되고, 해당 길이만큼 특징점들이 은닉 준마르코프 모델로부터 추출된다; (3) 추출된 특징점들을 멜-로그 스펙트럼 근사 필터의 매개변수로 이용하여 노래를 합성한다. 합성된 노래의 감정은 노래의 감정을 2차원으로 표현한 떼이터의 감정 모델에 따라 길이 정보, 비브라토 그리고 음색정보를 변경함으로써 표현하였다. 감정에 따라 합성된 노래의 평가를 위해서 인지 테스트를 수항하였다. 그 결과, 위 학위 논문에서 제시한 알고리즘을 이용하여 감정을 조절하는 합성 결과를 얻을 수 있음을 확인하였다.