서지주요정보
감정 강도 조절이 가능한 시퀀스-투-시퀀스 감정 음성 변환 기술 = Sequence-to-sequence emotional voice conversion with strength control
서명 / 저자 감정 강도 조절이 가능한 시퀀스-투-시퀀스 감정 음성 변환 기술 = Sequence-to-sequence emotional voice conversion with strength control / 최희진.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037895

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 21102

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation presents a new advanced emotional voice conversion (EVC) method that can also control emotional strength. Emotion is usually involved in daily conversation and it helps to communicate with each other more efficiently by reflecting not only the speakers’ emotion but also their intention. Emotional speech generation is one of the key milestones for more expressive human-friendly human-computer interactions. One field of achieving this is EVC, which converts neutral speech into desired emotional speech. Various methods, from statistical approaches to recent deep learning-based ones, have been successfully applied to EVC. By the way, conventional EVC methods still are not free from the problems such as the absence of the duration model and limited emotional expression capability. In this work, novel alternatives are proposed to resolve these drawbacks. In the first approach, we adopt an attention-based sequence-to-sequence model for the time alignments of neutral speech and emotional speech to map the duration within the model and design emotion parameters to capture the multi-attribute aspects of emotional variations through the style transfer model. To reflect various emotional expressions, we utilize the multi-speaker emotional speech data. In the inference phase, we weigh the emotion parameter to control emotion strength. In the second approach, we propose a more stable duration model through the knowledge transfer of time-aligned attention model. By analyzing the embedding distance between each emotion cluster, we introduce the linear interpolation-based emotion strength control method. The proposed methods overcome the previously-mentioned drawbacks of conventional methods and how improved results through objective and subjective performance evaluation.

본 학위 논문에서는 감정 강도를 조절하는 감정 음성 변환 방법론을 다룬다. 감정은 일상 대화에서 말의 의도와 반응을 보다 효과적으로 전달하고 사회적 소통, 의사 결정에도 중요한 역할을 하는 요소이다. 감정 음성 변환 기술은 풍부한 의사소통을 위한 감정 음성 생성 분야 중 하나로서 중립 음성을 원하는 감정 음성으로 변환해 주는 기술이다. 통계적인 접근 방법부터 최근에는 딥러닝까지 다양한 방법론들이 감정 음성 변환에 성공적으로 적용되었다. 하지만 기존의 감정 음성 변환 방법들은 발화 지속 시간 모델의 부재, 제한된 감정 표현력과 같은 문제점들이 수반된다. 따라서 본 논문에서는 두 가지의 감정 음성 변환 방법을 제안한다. 첫 번째 방법은 중립 음성과 감정 음성의 시간 정렬을 위해 어텐션 기반의 시퀀스-투-시퀀스 모델을 도입하여 발화 지속 시간을 모델 내에서 훈련하고, 감정 스타일 전이 모델을 통해 감정 음성의 개별적인 감정 스타일을 반영하는 감정 파라미터를 고안한다. 또한 감정 파라미터에 가중치를 부여하여 감정 음성 변환 시에 감정 강도 조절을 도모하며 다화자 감정 음성 데이터를 활용하여 다양한 화자의 감정 표현을 반영한다. 두 번째 방법은 시간 정렬 어텐션의 지식 전이를 통해 보다 안정적인 발화 지속 시간 모델을 제안한다. 또한, 각 감정 분포집단 간의 거리를 분석하여 선형 보간법에 기반한 감정 강도 조절 방법을 기술한다. 제안된 방법론들은 기존 기법들의 제한점들을 효과적으로 극복할 뿐만 아니라 객관적 및 주관적 평가실험을 통해 향상된 성능을 검증한다.

서지기타정보

서지기타정보
청구기호 {DEE 21102
형태사항 v, 81 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Heejin Choi
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Minsoo Hahn
부록 수록
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 72-77
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서