서지주요정보
기본주파수와 성도길이의 상관관계를 이용한 HTS 음성합성기에서의 목소리 변환 = Voice Transformation for HTS using Correlation between Fundamental Frequency and Vocal Tract Length
서명 / 저자 기본주파수와 성도길이의 상관관계를 이용한 HTS 음성합성기에서의 목소리 변환 = Voice Transformation for HTS using Correlation between Fundamental Frequency and Vocal Tract Length / 유효근.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030676

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 17067

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The main advantage of the statistical parametric speech synthesis is its flexibility in changing voice characteristics. A personalized text-to-speech(TTS) system can be implemented by combining a speech synthesis system and a voice transformation system, and it is widely used in many application areas. It is known that the fundamental frequency and the spectral envelope of speech signal can be independently modified to convert the voice characteristics. Also it is important to maintain naturalness of the transformed speech. In this paper, a speech synthesis system based on hidden Markov model(HMM-based speech synthesis, HTS) using the STRAIGHT vocoder is constructed and voice transformation is conducted by modifying the fundamental frequency and spectral envelope. The fundamental frequency is transformed in a scaling method, and the spectral envelope is transformed through frequency warping method to control the speaker's vocal tract length. In particular, this study proposes a voice transformation method using the correlation between fundamental frequency and vocal tract length. Subjective evaluations were conducted to assess preference and mean opinion scores(MOS) for naturalness of synthetic speech. As experimental results, the proposed voice transformation method showed higher preference while maintaining the naturalness of the speech quality.

통계적 매개변수 기반 음성 합성 방법의 가장 큰 장점은 음성 특징을 자유롭게 수정하여 다양한 목소리를 만들 수 있다는 것이다. 음성 합성 시스템과 목소리 변환 기법이 융합되어 개인화된 텍스트 음성 변환시스템이 구현될 수 있는데 이는 많은 분야에서 사용되고 있다. 음성의 기본주파수와 스펙트럼 포락선을 독립적으로 수정하여 목소리의 특징을 변환 할 수 있는데, 이 때 음질의 저하가 없고 자연스러움을 유지하는 것이 중요하다. 본 연구에서는 STRAIGHT 보코더를 사용하고 은닉 마르코프 모델에 기반을 둔 음성 합성 시스템을 구축하여 음성의 기본주파수와 스펙트럼 포락선 파라미터의 수정을 통해 목소리 변환을 시도한다. 기본주파수는 스케일링하는 방법으로 변환하고, 스펙트럼 포락선은 주파수 와핑을 통해 변환하여 화자의 성도길이를 조절한다. 특히 본 연구에서는 기본주파수와 성도길이의 상관관계를 모델링하고 이를 적용한 목소리 변환 방법을 제안한다. 주관적 선호도 평가 결과로 상관관계 모델을 적용한 방식에서 더 높은 선호도를 나타냈으며, 주관적 음질 평가 결과로 연구에서 활용한 목소리 변환방법은 음질 저하를 일으키지 않는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 17067
형태사항 iii, 47 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Hyo-Geun Yoo
지도교수의 한글표기 : 김회린
지도교수의 영문표기 : Hoirin Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 44-45
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서