서지주요정보
Style factor modeling via speech decomposition for expressive and controllable neural text to speech = 다양한 표현 및 제어가 가능한 음성 합성 시스템을 위한 음성 분해 기반의 스타일 요소 모델링 연구
서명 / 저자 Style factor modeling via speech decomposition for expressive and controllable neural text to speech = 다양한 표현 및 제어가 가능한 음성 합성 시스템을 위한 음성 분해 기반의 스타일 요소 모델링 연구 / Keon Lee.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038969

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 22028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Previous works on neural text-to-speech (TTS) have been addressed on limited speed in training and inference time, robustness for difficult synthesis conditions, expressiveness, and controllability. Although several approaches resolve some limitations, there has been no attempt to solve all weaknesses at once. In this paper, we propose STYLER, an expressive and controllable TTS framework with high-speed and robust synthesis. Our novel audio-text aligning method called Mel Calibrator and excluding autoregressive decoding enable rapid training and inference and robust synthesis on unseen data. Also, disentangled style factor modeling under supervision enlarges the controllability in synthesizing process leading to expressive TTS. On top of it, a novel noise modeling pipeline using domain adversarial training and Residual Decoding empowers noise-robust style transfer, decomposing the noise without any additional label. Various experiments demonstrate that STYLER is more effective in speed and robustness than expressive TTS with autoregressive decoding and more expressive and controllable than reading style non-autoregressive TTS.

텍스트-음성 변환(이하 음성 합성)에 대한 기존 연구에서는 훈련 및 추론의 제한된 속도, 견고성 저하, 그리고 발화 표현성 및 제어성 결여에 대해 해결하고자 하였다. 이들은 제한 사항들을 개별적으로 다루었지만 아직 까지 모든 문제를 한 번에 해결하려는 시도는 없었다. 이에 본 논문에서는 고속 훈련 및 추론과 견고한 합성을 지원하는 높은 표현력의 제어 가능한 음성 합성 프레임워크인 스타일러를 제안한다. 스타일러는 기존과 다르게 자동 회귀 디코딩에서 탈피하였고 멜 측정기라는 독창적인 텍스트-오디오 정렬 방법을 통해 빠른 훈련과 추론, 새로운 데이터에서의 강력한 합성을 실현한다. 또한, 지도 학습 법의 장점을 극대화 하여 잘 분리된 스타일 요소 모델링이 가능하고, 학습된 스타일 요소를 개별 수정할 수 있게 되면서 완전히 제어 가능한 표현성 음성 합성을 달성한다. 여기에 더해, 새로이 도메인 적대적 훈련을 겸비한 잔여 디코딩을 제안해 추가적인 라벨 없이도 노이즈를 분해 및 모델링 하고, 노이즈가 섞인 입력 값에서도 건장한 스타일 전이를 지원한다. 다양한 실험에서 스타일러는 자동 회귀 디코딩이 있는 표현형 음성 합성보다 속도가 빠르고 견고하며, 읽기 스타일을 지닌 비자동 회귀형 음성 합성보다 표현력이 뛰어나면서도 각 요소를 독립적으로 제어할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {MCS 22028
형태사항 v, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이건
지도교수의 영문표기 : Daeyoung Kim
지도교수의 한글표기 : 김대영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 27-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서