In this thesis, a speech analysis and synthesis method using a short-time, elementary waveform model is proposed and tested. The short-time, elementary waveform is a time-domain waveform, the envelope of witch is a raised cosine modulated by a carrier signal. The waveform has four parameters; amplitude, dominant frequency, attack length and decay length. Original signal is passed through a filterbank which was designed following the characteristics of human ears. Only one pitch period is analyzed in voiced sounds, and unvoiced sounds are modeled by noise burst constricted in some frequency band. Various rules are applied to modify duration and pitch of phonemes to implement intonation and accent. Text preprocessing is applied to convert input text into phonemes. In this processing, numbers, special symbols, English letters, and abbreviations are also converted into corresponding Korean words.
음성신호를, 인간의 귀의 특성을 고려하여 설계된 17개의 filter들로 이루어진 filter bank를 통과시켜 각 band의 신호를 SEW를 이용하여 analysis하고 synthesis했다. 유성음은 한 pitch period 구간을 해석의 대상으로 삼고 그 replication으로 원하는 duration만큼을 합성했다. 폐쇄음의 경우는 독립적인 database를 구축하지 않고 인접 모음의 formant를 transition시켰다. 무성음에 대하여는 SEW들의 random한 분포로서 구현하였다. Transition region에서는 parameter를 interpolation하여 formant transition의 효과를 얻었다. Intonation, accent에 대한 규칙을 적용하여 pitch와 duration과 intensity를 제어하였다. 입력 텍스트는 숫자, 기호, 영어 등을 적절한 한글로 변환한 후에 음운변동현상을 적용하여 텍스트 전처리를 하였다.