Neural text-to-speech (TTS) or neural speech synthesis technology is a deep-learning-based speech synthesis technology. It has been developed rapidly so far to generate human-level synthesized speech. A neural TTS system generally consists of an acoustic model that generates Mel-spectrogram from the input text and a vocoder that generates a speech waveform from the Mel-spectrogram. The performance of a TTS system is evaluated through the mean opinion score (MOS) of the synthesized speech. The $L_1$ or $L_2$ loss function between the ground truth and the generated Mel-spectrogram, generally used in the training process of the acoustic model, cannot directly reflect the performance of the neural TTS system measured by MOS. As a result, the quality of the synthesized speech deteriorates in various cases. In this dissertation, to overcome this fundamental limitation, we propose a method of adding a perceptual loss that can directly improve the speech quality to the training process of the acoustic model. The perceptual loss is defined as the $L_1$ loss between the predicted MOS and the upper limit of the MOS (i.e., 5). The proposed method can be commonly applied to all acoustic models regardless of the cause of speech quality degradation. We experimentally confirmed that the proposed method improved speech quality in three scenarios where the speech quality could deteriorate.
딥러닝 기반의 음성 합성 기술인 뉴럴 음성 합성 기술은 현재까지 급속도로 발전해서 실제 사람의 음성만큼 우수한 품질의 합성음을 생성할 수도 있게 되었다. 뉴럴 음성 합성 시스템은 일반적으로 입력 텍스트로부터 멜 스펙트로그램을 생성하는 음향 모델과 멜 스펙트로그램으로부터 음성 파형을 생성하는 보코더로 이루어져 있으며, 그 성능은 합성음의 Mean Opinion Score(MOS)를 통해 평가된다. 음향 모델의 훈련 과정에서 일반적으로 사용하는 실제 멜 스펙트로그램과 생성된 멜 스펙트로그램 사이의 $L_1$ 혹은 $L_2$ 손실 함수는 MOS로 측정되는 뉴럴 음성 합성 시스템의 성능을 직접적으로 반영할 수 없고, 결국 다양한 경우에서 합성음의 품질이 저하된다. 본 논문에서는 이러한 근본적인 제한을 극복하고자 음향 모델의 훈련 과정에 음질을 직접적으로 높일 수 있는 지각적 손실을 추가하는 방법을 제안하며, 지각적 손실은 생성된 멜 스펙트로그램으로부터 미리 훈련된 MOS 예측 모델이 예측한 MOS와 MOS의 상한선인 5 사이의 $L_1$ 손실로 정의한다. 제안하는 방법은 합성음 품질이 저하되는 원인과 상관없이 모든 음향 모델에 공통적으로 적용될 수 있으며, 음질이 저하될 수 있는 세 가지 시나리오에 대해 모두 음질의 개선이 있음을 실험적으로 확인하였다.