In this thesis, we study a Korean test-to-speech conversion system. Among many phonetic units such as phoneme, syllable, diphone, we have selected a diphone which is thought to be the most suitable unit for this system. synthetic speech can be generated with an unrestricted vocabulary by concatenating stored diphone elements. When joining speech segments that are not adjacent in the original context, discontinuities in the spectral envelope may arise which can cause degradation in intelligibility. In this work we propose a method to find optimum diphone boundaries in order to minimize these discontinuities. Steady-state zones of all phones carrying a diphone boundary are specified by means of a centroid vector. Also, Korean accent and intonation are studied, and implemented based on a schematic algorithm. The synthetic speech is fairly intelligible and natural, but some improvement of speech quality is desired for practical use.
본 논문은 임의의 한글 text를 입력으로 받아들여 이에 대응하는 음성을 출력시키는 한국어 음성 합성 시스템에 관한 연구로써, database의 기본 단위로 이용할 수 있는 음소, 음절, diphone 등에 관한 장.단점을 비교, 설명하였다. 본 연구에서는 한국어 음성 합성에 가장 적합한 phonetic unit로 diphone을 선택하여, 한 단음에 대한 여러 개의 발음 경로들의 대표값인 centroid를 이용하여 cost 함수를 정의하고 이 cost 함수로써 diphone boundary를 결정하는 반자동적인 방법에 의하여 database를 구성하였다. 그리고 합성음의 자연스러움을 위하여 accent와 intonation에 관하여 연구했는데, schematic algorithm을 이용하여 accent와 intonation을 구현하였다.
좀 더 명료하고 자연스러운 합성음을 만들기 위해서는 coding algorithm의 개선과 자동적인 diphone 추출 방법에 관한 연구, 그리고 accent와 intonation 구현을 위한 자연어 parsing에 관한 광범위한 연구가 있어야 할 것이다.