서지주요정보
조음 기관 모델링을 통한 한국어 모음 음성 합성기 구현 = Implementation of articulatory speech synthesizer for Korean vowel
서명 / 저자 조음 기관 모델링을 통한 한국어 모음 음성 합성기 구현 = Implementation of articulatory speech synthesizer for Korean vowel / 이희승.
저자명 이희승 ; Lee, Hui-Sung
발행사항 [대전 : 한국과학기술원, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8013057

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 02080

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Speech synthesis is one of the human interface which can be applied to various systems, such as aids for the disabled, information guiding and reporting system, TTS(Text-To-Speech) system, humanoid robot and so on. There are several different methods to realize speech synthesis. Among them, a formant and a concatenate method are commonly used in present synthesis system. They provide high quality and natural speech, but have a limited vocabulary and timbre since it is based on the database of human speech. It is articulatory synthesis that overcomes those problems. It has been known that, theoretically, the best method to generate artificial speech is to model a human speech production system directly. Since articulatory synthesis models the human vocal organs as precise as possible, it is potentially the most desirable method to produce various words and languages. However, articulatory synthesis has been rarely realized because its computational load is considerably high and the progress is too much complex. This paper proposes a new type of an articulatory synthesizer which produces Korean vowel and continuous utterance. Positions of articulator are extracted based on MRI data of Korean and sectional areas of vocal tract for Korean monophthong are estimated for the first time. Kelly-Lochbaum digital filter is used to implement a synthesizer based on the Mermelstein's vocal tract model. Several techniques are proposed to produce continuous utterance while positions of articulator in computer model are modified. The synthesizer is made to be adaptable for dynamic vocal tract length using buffer rearrangement. In the proposed system, components of timbre such as pitch, open quotient, speed quotient, volume, noise and periodicity are easily controllable. A various timbre, length, stress and intonation are tested and their results are presented. Singing a song is finally realized based on these results.

음성합성 분야는 기계와 사람간의 정보 전달의 한 부분으로, 음성 장애인의 보조 시스템, 다양한 정보 안내/소개 시스템, TTS 시스템, 휴머노이드 로봇 등에 응용할 수 있는 분야이다. 음성 합성을 구현하는 방법에는 여러가지가 있는데, 그 중 포만트 합성법과 연결형 합성법이 현재 많이 이용되고 있는 방식이다. 이 방식들은 현재 좋은 음질의 결과를 보이고 있으나, 기본적으로 사람의 실제 말소리 데이터 베이스를 바탕으로 이루어져서 다양한 음색과 어휘구현에는 제한이 따르게 된다. 바로 이러한 문제점을 극복할 수 있는 방식이 조음 음성 합성법 (articulatory speech synthesis)이다. 이론적으로는 조음 음성 합성법이 사람의 말소리를 가장 잘 흉내낼 수 있다고 알려져 있다. 조음 음성 합성법은 사람의 조음기관을 모델링해서 말소리 합성을 하기때문에, 다양한 음색과 어휘 구현이 가능한 무한한 잠재력을 지니고 있다. 그러나, 조음 음성 합성법은 구현 과정의 복잡함과 많은 계산량으로 인해 지금까지 많은 시도가 있지 않았다. 그래서, 이 논문 연구에서는 국내에서는 처음으로 한국어 모음과 연결음 등의 말소리를 낼 수 있는 조음 음성 합성법을 실제로 구현하였다. 한국인의 모음 발성 MRI 자료를 이용해서 조음 기관의 위치와 단면적을 처음으로 추출하였고, Mermelstein의 성도 모델을 기반으로 Kelly-Lochbaum 필터를 응용하였다. 그리고, 다양한 음색과 길이, 억양 등의 구현이 시도 되었고 결과를 제시하였다.

서지기타정보

서지기타정보
청구기호 {MEE 02080
형태사항 vii, 103 p. : 삽도 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Hui-Sung Lee
지도교수의 한글표기 : 정명진
지도교수의 영문표기 : Myung-Jin Chung
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 참고문헌 : p. 99-103
주제 조음 음성 합성기
성도 모델링
성도 디지털 필터
한국어 모음 단면적
한국어 단모음 MRI 자료
Articulatory speech synthesis
Mermelstein's vocal tract model
Kelly-Lochbaum digital filter
Cross-sectional areas
Positions of articulator
QR CODE qr code