서지주요정보
Improving speech quality by perceptual loss for neural text-to-speech = 뉴럴 음성 합성을 위한 지각적 손실 기반 음질 개선에 관한 연구
서명 / 저자 Improving speech quality by perceptual loss for neural text-to-speech = 뉴럴 음성 합성을 위한 지각적 손실 기반 음질 개선에 관한 연구 / Yeunju Choi.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040297

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23026

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Neural text-to-speech (TTS) or neural speech synthesis technology is a deep-learning-based speech synthesis technology. It has been developed rapidly so far to generate human-level synthesized speech. A neural TTS system generally consists of an acoustic model that generates Mel-spectrogram from the input text and a vocoder that generates a speech waveform from the Mel-spectrogram. The performance of a TTS system is evaluated through the mean opinion score (MOS) of the synthesized speech. The $L_1$ or $L_2$ loss function between the ground truth and the generated Mel-spectrogram, generally used in the training process of the acoustic model, cannot directly reflect the performance of the neural TTS system measured by MOS. As a result, the quality of the synthesized speech deteriorates in various cases. In this dissertation, to overcome this fundamental limitation, we propose a method of adding a perceptual loss that can directly improve the speech quality to the training process of the acoustic model. The perceptual loss is defined as the $L_1$ loss between the predicted MOS and the upper limit of the MOS (i.e., 5). The proposed method can be commonly applied to all acoustic models regardless of the cause of speech quality degradation. We experimentally confirmed that the proposed method improved speech quality in three scenarios where the speech quality could deteriorate.

딥러닝 기반의 음성 합성 기술인 뉴럴 음성 합성 기술은 현재까지 급속도로 발전해서 실제 사람의 음성만큼 우수한 품질의 합성음을 생성할 수도 있게 되었다. 뉴럴 음성 합성 시스템은 일반적으로 입력 텍스트로부터 멜 스펙트로그램을 생성하는 음향 모델과 멜 스펙트로그램으로부터 음성 파형을 생성하는 보코더로 이루어져 있으며, 그 성능은 합성음의 Mean Opinion Score(MOS)를 통해 평가된다. 음향 모델의 훈련 과정에서 일반적으로 사용하는 실제 멜 스펙트로그램과 생성된 멜 스펙트로그램 사이의 $L_1$ 혹은 $L_2$ 손실 함수는 MOS로 측정되는 뉴럴 음성 합성 시스템의 성능을 직접적으로 반영할 수 없고, 결국 다양한 경우에서 합성음의 품질이 저하된다. 본 논문에서는 이러한 근본적인 제한을 극복하고자 음향 모델의 훈련 과정에 음질을 직접적으로 높일 수 있는 지각적 손실을 추가하는 방법을 제안하며, 지각적 손실은 생성된 멜 스펙트로그램으로부터 미리 훈련된 MOS 예측 모델이 예측한 MOS와 MOS의 상한선인 5 사이의 $L_1$ 손실로 정의한다. 제안하는 방법은 합성음 품질이 저하되는 원인과 상관없이 모든 음향 모델에 공통적으로 적용될 수 있으며, 음질이 저하될 수 있는 세 가지 시나리오에 대해 모두 음질의 개선이 있음을 실험적으로 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 23026
형태사항 iv, 51 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최연주
지도교수의 영문표기 : Hoirin Kim
지도교수의 한글표기 : 김회린
수록잡지명 : "Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech". IEEE Access, v. 10, pp. 52621-52629(2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 42-47
주제 Speech synthesis
Text-to-speech
Neural text-to-speech
MOS prediction
Perceptual loss
음성 합성
텍스트 음성 변환
뉴럴 음성 합성
MOS 예측
지각적 손실
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서