서지주요정보
한국어 음성합성에 관한 연구 = Text-to-speech synthesis for Korean language
서명 / 저자 한국어 음성합성에 관한 연구 = Text-to-speech synthesis for Korean language / 박용규.
발행사항 [서울 : 한국과학기술원, 1987].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

4104701

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 8794

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, a text-to-speech synthesis system for Korean language that uses syllables as a unit of speech synthesis has been studied and implemented. In order to model (or parameterize) accurately both the steady-state and transient states of speech signal, the normalized sliding window covariance recursive least square lattice algorithm is used. First, the text is converted to a representation consisting of phonemes and indicators showing space, punctuation, etc. by formating input string into well-formed words, examining a small pronouncing dictionary, and executing a set of grapheme-to-phoneme rules for words that do not match the pronouncing dictionary. Then, the Korean prosodics that is one of the most important factors for increasing the intelligibility and enhancing the quality of the text-to-speech synthesis system is studied. An elaborate procedure has been taken to construct a good syllable dictionary since its quality determines the quality of the synthesized speech signal. But, with about 1500 syllables, it was very difficult to preserve the consistency of the dictionary (energy, speed, accent, duration, coarticulation, etc.). Finally, the text-to-speech synthesis is done by simply concatenating parameterized syllables without interpolation between syllable boundaries. The synthetic speech quality of the text-to-speech system studied is not yet satisfactory. However, it is believed that if we properly choose the units of speech (e.g., syllable, demi-syllable, or diphone) and refine the Korean prosodics, the quality can be improved.

본 논문에서는 syllable을 database로 한 한국어 음성합성 system이 연구되었다. 음성합성 model로 음성신호의 transition부분을 좀 더 정확히 modeling 하기 위하여 기존의 block processing대신 normalized sliding window covariance recursive least square lattice algorithm을 사용하였다. Text-to-speech system 구현의 일 단계인 발음표기 변환은 text input을 받아들여 발음법칙 예외사전을 조사한 후, 발음사전과 일치되지 않는 단어인 경우 음운 법칙을 이용해 발음표기 변환을 행하였다. 그 다음 text-to-speech system에서 합성음의 인식률(intelligibility)와 음질을 좋게 하기 위한 가장 중요한 분야의 하나인 한국어 운율(accent와 intonation)이 연구되었다. Transition 정보를 가지고 있는 syllable database는 곧바로 합성음의 음질을 결정하기 때문에 적절히 만들어져야만 했다. 그러나 합성되는 syllable이 약 1500개이어서 energy, 빠르기, accent, 장단, coarticulation 등의 일관성을 유지하는 일은 쉽지 않았다. 마지막으로 RLS algorithm을 이용한 LPC를 사용하여 syllable을 coding하고, 한국어 운율과 coding된 syllable database를 이용해 syllable 경계에서의 interpolation 없이 단순한 연결에 의하여 text-to-speech 음성합성을 수행하였다. 결론적으로 연구된 합성음의 음질은 아직 만족스럽지는 못하지만 적절한 음성단위(예를 들면 syllable, demi-syllable, diphone 등)와 database를 구축하고서 한국어 운율이론을 개선하고 program parameter를 최적화 시킨다면 음질이 향상될 것으로 믿는다.

서지기타정보

서지기타정보
청구기호 {MEE 8794
형태사항 vi, 52 p. : 삽화 ; 26 cm
언어 한국어
일반주기 부록 수록
저자명의 영문표기 : Yong-Kyu Park
지도교수의 한글표기 : 은종관
지도교수의 영문표기 : Chong-Kwan Un
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 참고문헌 : p. 47-50
주제 Speech synthesis.
Least squares.
Phonemics.
Grammar, Comparative and general --Syllable.
음성 합성. --과학기술용어시소러스
최소 제곱법. --과학기술용어시소러스
음소. --과학기술용어시소러스
Korean language.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서