Previous works on neural text-to-speech (TTS) have been addressed on limited speed in training and inference time, robustness for difficult synthesis conditions, expressiveness, and controllability. Although several approaches resolve some limitations, there has been no attempt to solve all weaknesses at once. In this paper, we propose STYLER, an expressive and controllable TTS framework with high-speed and robust synthesis. Our novel audio-text aligning method called Mel Calibrator and excluding autoregressive decoding enable rapid training and inference and robust synthesis on unseen data. Also, disentangled style factor modeling under supervision enlarges the controllability in synthesizing process leading to expressive TTS. On top of it, a novel noise modeling pipeline using domain adversarial training and Residual Decoding empowers noise-robust style transfer, decomposing the noise without any additional label. Various experiments demonstrate that STYLER is more effective in speed and robustness than expressive TTS with autoregressive decoding and more expressive and controllable than reading style non-autoregressive TTS.
텍스트-음성 변환(이하 음성 합성)에 대한 기존 연구에서는 훈련 및 추론의 제한된 속도, 견고성 저하, 그리고 발화 표현성 및 제어성 결여에 대해 해결하고자 하였다. 이들은 제한 사항들을 개별적으로 다루었지만 아직 까지 모든 문제를 한 번에 해결하려는 시도는 없었다. 이에 본 논문에서는 고속 훈련 및 추론과 견고한 합성을 지원하는 높은 표현력의 제어 가능한 음성 합성 프레임워크인 스타일러를 제안한다. 스타일러는 기존과 다르게 자동 회귀 디코딩에서 탈피하였고 멜 측정기라는 독창적인 텍스트-오디오 정렬 방법을 통해 빠른 훈련과 추론, 새로운 데이터에서의 강력한 합성을 실현한다. 또한, 지도 학습 법의 장점을 극대화 하여 잘 분리된 스타일 요소 모델링이 가능하고, 학습된 스타일 요소를 개별 수정할 수 있게 되면서 완전히 제어 가능한 표현성 음성 합성을 달성한다. 여기에 더해, 새로이 도메인 적대적 훈련을 겸비한 잔여 디코딩을 제안해 추가적인 라벨 없이도 노이즈를 분해 및 모델링 하고, 노이즈가 섞인 입력 값에서도 건장한 스타일 전이를 지원한다. 다양한 실험에서 스타일러는 자동 회귀 디코딩이 있는 표현형 음성 합성보다 속도가 빠르고 견고하며, 읽기 스타일을 지닌 비자동 회귀형 음성 합성보다 표현력이 뛰어나면서도 각 요소를 독립적으로 제어할 수 있음을 보여준다.