서지주요정보
Emotional singing voice synthesis by changing duration, vibrato and timbre = 음 길이, 비브라토 그리고 음색의 변화를 이용한 감정 노래 합성
서명 / 저자 Emotional singing voice synthesis by changing duration, vibrato and timbre = 음 길이, 비브라토 그리고 음색의 변화를 이용한 감정 노래 합성 / Youn-Sung Park.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021743

소장위치/청구기호

학술문화관(문화관) 보존서고

MRE 10015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, a novel emotional singing voice synthesis system is considered. There were various approaches to express emotion between human and machine or robot through varying facial expression, action and synthesized speech of a robot. Although singing is known as an effective way for expressing emotion, there is no research using singing to express emotion. To synthesize the singing voice with emotion, the statistical parametric synthesis system is used. The statistical parametric synthesis system uses a singing database which is composed of various melodies sung neutrally with restricted set of words and hidden semi-Markov models (HSMMs) of notes ranging from G3 to E5 to construct statistical information. The procedure of statistical parametric synthesis system is composed of mainly two parts, training and synthesis. In training part, both spectrum and excitation parameter are extracted from a singing database, and the statistical information of spectrum and excitation parameter for each note is constructed. Three steps are taken in the synthesis part: (1) Pitch and duration are determined according to the notes indicated by the musical score; (2) Features are sampled from appropriate HSMMs with the duration set to the maximum probability; (3) Singing voice is synthesized by the mel-log spectrum approximation (MLSA) filter using the sampled features as parameters of the filter. Emotion of a synthesized song is controlled by varying the duration, the vibrato parameters and the timbre according to the Thayer`s mood model which defines emotions in tense and energy axis. Perception test is performed to evaluate the synthesized song. The results show that the algorithm can control the expressed emotion of a singing voice given a neutral singing database.

이 학위논문에서는 노래를 이용하여 감정을 전달하기 위한 새로운 방법이 시도되었다. 사람과 로봇간의 감정을 전달하기 위한 기존의 방법은 표정변화, 행동 그리고 합성된 음성의 변화를 통한 시도만이 존재한다. 하지만, 노래를 이용하여 감정을 전달하는 것이 효과적인 방법임에도 불구하고 이와 같은 방법은 시도되지 않았다. 노래를 감정과 섞어 합성하기 위해서 매개변수를 이용한 통계적 합성방법을 이용하였다. 매개변수를 이용한 통계적 합성방법은 중립적인 감정으로 부른 노래 데이터 베이스를 이용하였고, 은닉 준마르코프 모델을 이용하여 G3부터 E5까지의 음계에 대한 통계적인 정보를 구축하였다. 매개변수를 이용한 통계적 합성방법은 훈련과정과 합성과정으로 구성된다. 훈련과정에서는 데이터 베이스에 존재하는 각 노래로부터 스펙트럼과 익사이테이션 매개변수가 추출되고, 각 음계별로 통계적인 정보가 구축된다. 합성과정은 크게 세 부분으로 구성된다: (1) 주어진 악보에 의해 음의 높이와 길이 정보가 결정된다; (2) 길이에 관한 확률분포를 최대화하는 값으로 길이가 결정되고, 해당 길이만큼 특징점들이 은닉 준마르코프 모델로부터 추출된다; (3) 추출된 특징점들을 멜-로그 스펙트럼 근사 필터의 매개변수로 이용하여 노래를 합성한다. 합성된 노래의 감정은 노래의 감정을 2차원으로 표현한 떼이터의 감정 모델에 따라 길이 정보, 비브라토 그리고 음색정보를 변경함으로써 표현하였다. 감정에 따라 합성된 노래의 평가를 위해서 인지 테스트를 수항하였다. 그 결과, 위 학위 논문에서 제시한 알고리즘을 이용하여 감정을 조절하는 합성 결과를 얻을 수 있음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MRE 10015
형태사항 vi, 33 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박윤성
지도교수의 영문표기 : Chang-Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References: p. 31-33
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서