서지주요정보
HMM-based Korean speech synthesis using suprasegmental prosodic features = 초분절적 운율 정보를 이용한 HMM 기반 한국어 음성 합성
서명 / 저자 HMM-based Korean speech synthesis using suprasegmental prosodic features = 초분절적 운율 정보를 이용한 HMM 기반 한국어 음성 합성 / Seung-Uk Lee.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022767

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 11028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Hidden Markov models (HMMs) are generally used to recent researches statistical parametric speech synthesis systems. An HMM is a generative model frequently used in speech recognition, which is applied to parameter generation that is prior stage to signal processing of speech synthesis. HMM-based speech synthesis has advantages including the followings: Much less storage is necessary because there is no need to keep speech corpus after training is finished. Furthermore, it is easy to get the speeches with various voice characteristics, speaking styles, and emotions by modifying the parameters. There are more advantages such as multilingual support, robustness, and ability to separately control each parameter. Commonly believed drawbacks of this kind of speech synthesis such as vocoder-like sound or unnaturalness due to speech reconstruction from parameters are being gradually overcome. However, most HMM-based speech synthesis approaches are inferior in the sense of prosody. Prosody is an important factor of verbal communication. There is a research insists that prosody has more eminent impact on communication than meaning of the words themselves. The primary weakness of HMM-based speech synthesis system in generation of prosody is that it considers prosodic features in subword units, i.e. phones. A model in the trained HMM set corresponds to a phone. Therefore, it has difficulties utilizing suprasegmental information such as relations between words, structure of the sentence, and lengths of each word, phrase, and the sentence. This leads the HMM-based system to lack the capability for creating natural speeches with human-like changes in pitch and tempo, rather it creates machine-like speeches which have the same pauses at spaces, pronounce all the words in the same way without any changes in strength or rate. Context-dependent HMM is suggested to overcome this problem; still it has not been the essential solution for prosody. We have researched generating more natural prosody by taking advantage of suprasegmental information for handling prosodic features to solve the difficulties in prosody generation of conventional HMM-based speech synthesis system. This thesis describes a method of applying tree-based prosody modeling to prosody generation to handle it suprasegmentally while the strength of HMM-based speech synthesis system in expressing intrasegmental details is retained. The proposed tree-based prosody modeling in this thesis employs computational prosodic structure of Korean language and text analysis including morphologic analysis and syntactic analysis based on dependency grammar. This analyzed information is used to train classification and regression trees for determination of phone durations, prosodic phrasing and determination of pause lengths, and reproducing pitch contours, which is able to generate prosody suprasegmentally. Generated prosodic information in this way is then applied to the sentence HMM that is concatenated phone HMMs by HMM-based system. First, pauses of prosodic boundaries and phone durations are placed on the appropriate phone or pause models. At this moment, the proportions of state durations of the HMMs are retained to keep the properties of HMM-based synthesis. Next, pitch information is applied to center states of phone models since it is generated as mean values of each phone, and other states are made to have interpolated values. After the values in the sentence HMM are modified, speech parameters are extracted by maximum likelihood method, and speech waveform is generated by MLSA filtering. This method makes the waveform much more similar to human utterances than the baseline system that have almost same pauses because it grammatically identifies prosodic boundaries and determines if a pause is needed and how long the pause length should be. In addition, structure of a sentence and morphemes, etc. are considered since these may have influence on pitches and phone durations. Thus the proposed speech synthesis system in this thesis is able to create more natural voice while maintaining the advantages of conventional HMM-based system. For experiments, objective and subjective evaluations are performed. Objective evaluations show that the generated prosodic features by the trees are closer to the natural speech. Subjective evaluations also show the proposed system using this prosodic information generates more natural and preferable speech for listeners.

최근 들어 은닉 마르코프 모델(hidden Markov models; 이후 HMM)을 이용한 통계적 음성 합성 방식이 많이 연구되고 있다. HMM은 주로 음성 인식에 많이 사용되던 생성 모델인데, 이것을 음성 합성의 신호 처리 전 단계인 파라미터 생성에 적용한 합성 방식이다. HMM 기반 음성 합성 방식은 다음과 같은 장점이 있다. 먼저, 훈련이 끝나면 음성 코퍼스를 보유하지 않아도 되므로 용량을 적게 차지한다. 또한, 모델 파라미터를 조절하여 다양한 음색, 발성 특성, 감정을 가진 음성을 만들어내기가 용이하다. 그 외에도 다국어 지원 가능성, 강건성, 각 매개변수의 별도 제어 가능성 등의 장점이 있다. 일반적으로 이 음성 합성 방식의 단점은 매개변수로부터 음성을 재구성하기 때문에 기계음과 같은 소리가 난다는 것이었는데, 이는 최근 연구가 활발해지면서 점차 극복되고 있다. 하지만, 여전히 대부분의 HMM 기반 음성 합성 방식들은 운율 처리에 취약하다. 운율은 언어적 의사 소통에서 굉장히 중요한 요소인데, 단어의 의미 그 자체보다 더 비중이 크다는 연구 결과도 있다. 운율 생성에 있어서 HMM 기반 음성 합성 시스템의 가장 큰 약점은 매개변수를 분절 단위, 즉 음소 단위로 고려한다는 것이다. 훈련된 HMM 세트에 포함된 각 모델 하나가 음소 하나에 대응되므로, 단어 사이의 관계, 문장의 구조나 단어, 구, 문장의 길이와 같은 초분절적 정보를 이용하기가 어렵다. 따라서, 한 문장을 합성하였을 때, 문장 전체를 사람이 읽는 것처럼 완급을 자연스럽게 조절하여 발성하지 못하고, 띄어쓰기를 항상 똑같이 쉰다거나, 강약 변화나 길이의 변화가 없이 모든 단어를 똑같은 식으로 발성하여 기계적으로 들리는 것이다. 이러한 문제의 대안으로, 문맥 의존 HMM이 제시되긴 했으나, 근본적인 해결책은 되지 못 하였다. 우리는 기존 HMM 기반 음성 합성 시스템의 운율 생성 방식의 문제점을 해결하기 위해, 운율을 초분절적 정보로 접근하는 방법을 접목하여 운율을 보다 자연스럽게 만들어내는 연구를 수행하였다. 본 논문에서는 분절 내의 상세한 표현에 강점을 가진 HMM의 특성은 유지하면서, 운율 정보 생성에 트리 기반 운율 모델링을 적용하여 초분절적으로 운율을 다루는 방법을 설명한다. 제안된 트리 기반 운율 모델링에서는 한국어의 계산학적 운율 구조를 이용하고, 텍스트 분석---형태소 분석 및 의존 문법에 기반한 구문 분석을 포함---이 이루어진다. 이 분석 정보로 음소 지속시간 결정, 운율구 분리 및 휴지시간 결정, 음조 지정을 위한 분류 및 회귀 트리들을 훈련시켜, 초분절적으로 운율을 생성할 수 있다. 이렇게 생성된 운율 정보를 HMM 합성기에서 만들어낸 문장 HMM에 적용하게 되는데, 먼저, 운율구의 휴지시간과 음소 지속시간을 각 음소 혹은 휴지 모델에 씌운다. 이 때, 기존 모델의 상태별 지속시간 비중에 따라 배분하여, HMM 합성의 특성을 유지할 수 있도록 한다. 음조 정보는 음소별 평균값으로 생성되기 때문에, 이 값들을 각 음소 모델의 중심 상태의 출력 평균값에 적용하고, 나머지 상태들은 보간법을 이용하여 채운다. 문장 HMM의 값들을 변경하고 나면, 최대 우도법으로 매개변수를 추출하여, MLSA 필터를 사용하여 음성 파형을 생성한다. 이 방법은 운율구의 경계를 문법적으로 판단하여 휴지를 가질지의 여부 및 휴지 시간을 결정하기 때문에, 문법 정보 없이 일정하게 쉬는 기존 모델에 비하여 훨씬 사람의 발성에 가깝다. 또한, 다른 정보가 거의 동일한 음소라도 문장의 구조나 형태소에 따라 음조나 발음하는 길이가 다를 수 있는데, 이것 역시 고려한다. 따라서, 본 논문에서 제안된 합성 시스템은 기존 HMM 합성이 가진 장점을 살리면서, 보다 자연스러운 발성을 만들어낼 수 있다. 본 연구의 실험에서는 제안된 시스템에서 생성한 운율이 HMM 기반 합성 시스템에서 생성한 운율보다 화자가 직접 발성한 음성의 운율과 더 가깝다는 것을 객관적 평가로 입증하였으며, 이 운율 정보를 사용하여 합성한 음성이 더 자연스럽고 사람들이 듣기에 좋다는 것을 주관적 듣기 테스트를 통하여 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 11028
형태사항 vi, 39 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이승욱
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 참고문헌 : p. 37-39
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서