서지주요정보
평활화 효과 개선을 통한 DNN 기반 통계 파라메트릭 음성합성기의 음질 향상 방법 = Performance improvement of DNN-based statistical parametric speech synthesis by over-smoothing effect reduction
서명 / 저자 평활화 효과 개선을 통한 DNN 기반 통계 파라메트릭 음성합성기의 음질 향상 방법 = Performance improvement of DNN-based statistical parametric speech synthesis by over-smoothing effect reduction / 박상준.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033249

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The synthetic speech quality of statistical parametric speech synthesis (SPSS) has been improved significantly through the use of deep neural networks (DNNs), which show better performance in representing complex, nonlinear and high-dimensional relationship between linguistic features and acoustic ones than conventional hidden Markov models (HMMs). Over the last few years, several end-to-end speech synthesis frameworks, which can generate almost human-like synthetic speech, including WaveNet, Tacotron, and Deepvoice, have been proposed. However, these algorithms inevitably suffer from significant performance degradation under small corpus conditions and also need high computation costs. And in most practical cases, it becomes nearly impossible to meet the requirements of these very huge data size and very high computational cost. Hence, SPSS approaches are still far more useful in real environments. In SPSS, several studies with various DNN-based architectures have been reported. Usually, they include a linear output layer and are trained with the mean squared error (MSE), and generate acoustic features using a maximum likelihood parameter generation (MLPG) algorithm. But, two unneglectable problems arise: the frame-wise independence assumption for the MSE criterion and the unimodal assumption for the linear output layer. Although temporal information of speech is crucial for high quality synthetic speech, the MSE criterion fragments the relationship between the static and the dynamic features in the training phase. A minimum trajectory error (MTE) criterion is proposed to moderate this drawback by adding a static-dynamic constraint on the MSE criterion. The MTE training can generate a more natural trajectory but it still is over-smoothed due to the linear output layer. A mixture density network (MDN) output layer can overcome this problem to some extent with a maximum likelihood (ML) loss function. Multiple Gaussian mixtures in an MDN can represent the multimodality of speech and predict the variances while the linear output layer uses only the pre-computed fixed variances. Nevertheless, like the MSE criterion, the ML criterion can also generate some unnatural trajectories because it fails to deploy temporal information which is needed in the training phase when high quality speech synthesis is the goal. Another way of alleviating the over-smoothing effect is to exploit the analytical features of the generated acoustic parameters, such as the global variance and the modulation spectrum which are known as the non-negligible perceptual cues. Training/synthesis algorithms constrained on the global variance and the modulation spectrum have improved the clarity of the synthetic speech. However, they put their efforts only in making the trajectory sharp enough to be more similar to natural ones but fail to consider the multimodality of speech. In this thesis, a novel MTE criterion-based training algorithm for MDNs is proposed to cope with both the over-smoothing and the unnatural trajectory problems. To introduce the MTE criterion, the MLPG algorithm for MDNs is reformulated into a closed-form one utilizing only the most probable mixture (MPM) component; the conventional MLPG algorithm for MDNs is achieved by applying an iterative EM algorithm. The proposed algorithm covers both the static-dynamic constraint and the multimodality of speech and thus succeeds in producing more natural and clearer synthetic speech as expected. Furthermore, a modulation spectrum constraint and a generative adversarial network is introduced into the MTE loss function and confirmed to be useful in mitigating the over-smoothing. Experimental results confirmed that the proposed algorithm improves the synthetic speech quality meaningfully and perceptibly both in objective and subjective evaluations.

통계 파라메트릭 음성합성기의 음질은 심층신경망의 도입으로 인해 크게 향상되었다. 심층신경망은 언어특징벡터와 음성특징벡터간의 복잡(complex)하고 비선형적, 고차원 관계를 표현하는데 있어 전통적인 방법인 은닉 마르코프 모델보다 좋은 성능을 보여준다. 최근 몇 년간 엔드투엔드 구조를 가지는 음성합성 구조가 제안되었다. 하지만 이러한 알고리즘들은 소용량 코퍼스 환경에서 급격한 성능저하를 보이며 높은 계산량을 필요로 하는 단점이 있다. 이러한 이유로 제한된 환경에서는 통계 파라메트릭 음성합성기가 여전히 유용하다고 할 수 있다. 여러가지 심층신경망을 활용한 통계 파라메트릭 구조가 제안되었다. 이러한 구조들은 일반적으로 선형출력층을 가지며 최소 평균제곱오차(MSE: Mean Squared Error) 기준(criterion)으로 훈련되며, 최대 우도 파라미터 생성(MLPG: Maximum Likliehood Parameter Generation) 알고리즘을 이용하여 파라미터를 생성한다. 하지만 이때 2가지 주요한 문제가 발생한다: MSE 기준으로 인한 프레임간 독립 문제와 선형출력층으로 인한 유니모달(unimnodal) 가정 문제이다. 고음질의 음성합성을 위해서는 음성의 시간축에서의 정보가 필수적이지만 MSE 기준은 정적 특징벡터와 동적 특징벡터간의 관계를 어긋나게 만든다. 이러한 단점을 보안하기 위해 최소 궤적 오차(MTE: Minimum Trajectory Error)가 제안되었다. MTE 기준은 정적-동적 제약을 MSE 기준에 추가함으로써 시간축에서 자연스러운 특징벡터 궤적을 생성한다. 하지만 생성된 특징벡터는 선형출력층 문제로 인해 과평활화(over-s0moothing) 되어있다. 혼합 밀도 신경망(MDN: Mixture Density Network) 출력층은 이러한 문제를 해결할 수 있다. MDN의 여러 개의 가우시안 혼합이 음성의 멀티모달(multimodal) 특성을 반영함으로써 과평활화 문제를 일부 해결하였다. 그럼에도 불구하고 MSE 기준과 마찬가지로 시간축에서의 정보를 활용하지 못함으로써 부자연스러운 궤적을 생성한다. 과평활화 문제를 해결하기 위한 또 하나의 방법은 생성된 특징벡터의 분석 특징을 사용하는 것이다. 이러한 분석 특징 중엔 인지적인 단서라고 알려진 전역 분산(GV: Global Variance)과 변조 스펙트럼(MS: Modulation Spectrum)이 대표적이다. 훈련/합성과정에서 GV와 MS를 제약으로 활용함으로써 합성음의 명료성을 향상시킬 수 있다. 하지만 이러한 방법은 음성의 멀티모달 특성을 반영하는 것이 아니라 음성과 비슷하도록 궤적의 변화를 급격하게 만드는 데에만 집중한다. 본 논문에서는 과평활화 문제와 부자연스러운 궤적 문제를 해결하기위해 MDN에 MTE 기준을 적용하는 훈련 알고리즘을 제안한다. MTE 기준을 적용하기 위해 최확혼합(MPM: Most Probable Mixture)를 활용하여 전통적 MLPG 알고리즘을 폐형(closed-form)으로 수식화하였다. 제안 알고리즘은 정적-동적 제약을 도입하였을 뿐만 아니라 음성의 멀티모달 특성을 반영할 수 있기 때문에 전통적방법보다 좀 더 자연스럽고 명료한 합성음을 생성할 수 있다. 추가적인 성능 개선을 위해, MS 제약과 적대적 생성 신경망을 손실함수에 적용함으로써 과평활화 문제를 한번 더 감쇄시켰다. 합성음질 평가를 위해 객관적, 주관적 평가를 실시하였고 제안된 알고리즘이 합성음질을 향상시켰다는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 19011
형태사항 vii, 101 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Sangjun Park
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Minsoo Hahn
수록잡지명 : "Modulation spectrum-constrained trajectory error training for mixture density network-based speech synthesis". The Journal of the Acoustical Society of America, v.144.no.EL151, (2018)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 89-95
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서