Recently-developed deep learning based text-to-speech (TTS) models showed promising performance and possibility of multi-speaker TTS. However, current multi-speaker TTS models are not easily extensible to new speaker's voice and requires much time to retrain the model with new speaker's voice. Our approach can instantly imitate new speaker's voice using speaker adaptation technique. We proposed novel network architecture to enable this task and generated speech samples that are comparable to the existing multi-speaker TTS model. Moreover, we made improvement on baseline TTS model Tacotron by introducing additional connections. We also proposed and demonstrated a way to train speaker embedding to generate arbitrary voices by tuning its value.
본 논문에서는 다화자 음성합성 모델이 새로운 화자의 목소리를 모사하여 음성을 합성하는 방법에 대하여 다루었다. 기존의 다화자 음성합성의 경우 학습 데이터에 있던 목소리로만 음성합성이 가능하였고, 새로운 화자의 음성을 합성하기 위해서는 모델의 재학습이 요구되었다. 본 논문에서는 새로운 목소리에서 특징을 추출하고 이를 활용한 화자 적응을 통해 새로운 목소리를 즉시 합성하는 신경망 구조를 제안하였다. 더불어 제안한 모델의 기초가 되는 신경망 기반 음성합성 모델인 Tacotron의 개선 방안을 제시하였으며, 다화자 음성합성 모델에서 존재하지 않는 임의의 인물의 목소리를 합성하기 위한 화자 정보 벡터의 학습 방법을 제시하고 화자 정보 벡터의 각 차원 별로 값을 조정함에 따라 다양한 목소리로 음성 합성이 가능한 것을 보였다.