HMM-based Korean speech synthesizer with two-band mixed excitation model for enbedded applications = 임베디드 시스템을 위한 2대역 혼합 여기 모델과 은닉 마코프 모델(HMM)기반의 한국어 음성 합성기
서명 / 저자 HMM-based Korean speech synthesizer with two-band mixed excitation model for enbedded applications = 임베디드 시스템을 위한 2대역 혼합 여기 모델과 은닉 마코프 모델(HMM)기반의 한국어 음성 합성기 / Sang-Jin Kim.
발행사항 [대전 : 한국정보통신대학교, 2007].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

ICU/DS07-04 2007

휴대폰 전송







Speech interface may be the first choice as a user interface for robots or hand-held devices such as personal digital assistants (PDAs) and portable multimedia players (PMPs). However, those devices have the limitation of the memory space and the computation power. The hidden Markov model (HMM)-based speech synthesis is presently considered to be suitable for the embedded systems. This thesis describes an HMM-based Korean speech synthesis, spectral parameter comparison, and the suggested two-band excitation model for the HMM-based speech synthesis. Firstly, development of an HMM-based Korean speech synthesis system and its evaluation is presented. Statistical HMM models for Korean speech units are trained with the hand-labeled speech database including the contextual information about phoneme, word phrase, utterance, and break strength. The developed system produced speech with a fairly good prosody. The synthesized speech is evaluated and compared with that of a corpus-based unit concatenating Korean text-to-speech system. The two systems were trained with the same manually labeled speech database. Secondly, comparison of the mel-cepstrum and the line spectrum pair (LSP) as the spectrum parameters for the developed HMM-based speech synthesis is described. Since the mel-cepstral analysis has a couple of merits compared to the linear prediction analysis and the normal cepstral analysis, mel-cepstral coefficients have been used as the feature for spectrum modeling of the HMM-based speech synthesis. Although the LSP also satisfies the stability and the quantization/ interpolation performance of the synthesis filter, its feasibility for the HMM-based speech synthesis is not tested. In this thesis, the LSP and the mel-cepstrum parameters are tested for the HMM-based speech synthesis, and the comparative performance evaluation is carried out. The two systems are trained with the same manually labeled speech database. The results show that the LSP can be a good alternative for the mel-cepstral parameter in the HMM-based speech synthesis even while requiring less data storage. Finally, a two-band excitation model is suggested for HMM-based speech synthesis. The HMM-based speech synthesis system generates speech from the HMM training data of the spectral and excitation parameters. Synthesized speech has a typical quality of "vocoded sound" mostly because of the simple excitation model with the voiced/unvoiced selection. In this thesis, two-band excitation based on the harmonic plus noise speech model is proposed for generating the mixed excitation source. With this model, we can generate the mixed excitation more accurately and reduce the memory for the trained excitation data as well"

본 연구에서는 HMM 기반의 한국어 음성 합성기의 구현, 합성음질의 개선을 위한 스펙트럼 특징 파라미터 비교 및 2대역 혼합 여기 모델을 제안하였다. 소형 경량화 되어가는 추세의 휴대 단말기에서 가장 편리한 사용자 인터페이스는 음성언어다. 음성인터페이스는 휴대폰, PDA, PMP등과 같은 모바일 기기뿐만 아니라 자동차 네비게이션이나 가정용 로봇 등 다양한 임베디드 시스템에 응용될 수 있다. 그러나 이러한 임베디드 시스템의 경우 저장용량이나 연산능력에 한계가 있으며, 이로 인해서 현재 가장 널리 사용되는 음성합성 방법인 대용량 코퍼스 기반 음성합성 방식은 매우 훌륭한 품질의 음성을 합성할 수 있음에도 불구하고, 임베디드 시스템의 응용에 많은 어려움이 있다. 본 연구에서 다루는 HMM 기반의 음성합성은 대용량 코퍼스 기반 음성합성 방식과는 달리, 훈련시 많은 음성 데이터베이스를 필요로하지 않기에 훈련 데이터베이스 녹음에 드는 비용과 시간을 절감할 수있고, 훈련된 HMM 데이터의 크기도 작아서 소용량 임베디드 시스템에 아주 적합한 음성합성 방식이다. 이 방식은 Tokuda 박사 등이 처음 제안한 방법이며 그 후 Yoshimura 박사 등이 발전시켰는데, Tokuda박사는 HMM 으로부터 합성 파라미터를 생성하는 방법을 제안하였으며, Yoshimura 박사는 운율 생성 방법을 연구하고 음성합성기의 모습을 갖추는데 공헌을 했다. 최근에는 다양한 언어를 지원하는 HMM기반의 음성 합성기가 발표되고 있는데, 아직까지 한국어를 지원하는HMM 기반의 한국어 합성기는 연구되지 않았다. 먼저, 한국어를 지원하는 HMM 기반의 음성합성 시스템을 개발하였다. 시스템에서 훈련시 사용된, 음소 분류정보, 음절/어절/문장 내의 음소 위치정보, 끊어읽기 강세 정보 등, 한국어 문맥정보들에 대해서 설명하였고, 최종으로 합성된 음성을 동일한 음성 데이터베이스로 훈련된 대용량 코퍼스 기반 음성합성기의 합성음성과 비교 청취 평가하였다. 실험결과 소용량 음성 데이터임에도 불구하고 비교적 뛰어난 품질의 한국어 음성을 합성할 수 있었으나, 전형적인 보코더 음색을 가지고 있어 개선의 여지가 남아있었다. 둘째로, HMM 훈련에서 사용된 음성의 스펙트럼 파라미터, mel-cepstrum과 LSP 파라미터를 비교 평가하였다. mel-cepstrum 파라미터는 pole-zero 모델을 근사할 수 있기 때문에 all-pole 모델 이용하는 LP 기반의 파라미터나 일반적인 cepstrum 파라미터와 비교할 때 더 나은 장점들을 가지고 있다. 그래서 처음 HMM 기반의 음성합성이 제안되었을 때부터 지금까지 mel-cepstrum 파라미터가 스펙트럼 모델링 파라미터로 사용되어 왔다. 그러나 현재 많은 표준 음성 보코더의 경우 스펙트럼 파라미터로 LSP 파라미터를 사용하고 있다. 이는 LSP 파라미터 역시 양자화 및 보간연산시 좋은 결과를 보이며 합성시 발산하지 않는 안정성을 가지고 있기 때문이다. 따라서 HMM 기반의 음성합성에 LSP파라미터를 사용하여 성능을 평가하고 그 가능성을 확인해 볼 필요가 있다. 본 연구에서는 mel-cepstrum 과 LSP 파라미터를 음성인식, 분석/합성 거리측정, 및 합성음성의 선호도 평가 등을 통하여 비교 실험 하였다. 실험결과 LSP 파라미터의 가능성을 확인할 수 있었으며, 동일한 차수의 파라미터로 훈련한 경우 오히러 LSP 가 mel-cepstrum 보다 좋은 결과를 보여주었다. 마지막으로, HMM 기반 음성합성을 위한 2대역 혼합 여기 모델을 제안하였다. HMM 기반의 음성합성 방식은 음성의 합성을 위해서 스펙트럼 파라미터와 여기신호 파라미터를 필요로 한다. 유/무성의 2단계 여기신호를 이용한 전통적인 여기 모델을 사용하면, 전형적인 보코더 음질의 음성을 합성하게 된다. 이의 개선을 위해서 Yoshimura박사 등이 표준 MELP 보코더를 기반으로한 혼합 여기모델을 제안 하였고, 적용한 결과 향상된 음성을 합성할 수 있었다. 그러나 표준MELP 보코더는 협대역 음성신호를 위해 개발되었으며, 이를 광대역 음성신호에 확장 적용하였기 때문에, 좀 더 개선할 여지를 가지고 있었다. 보다 세분화 된 분석 밴드를 사용한다면, 광대역 음성신호에 최적화 된 혼합 여기 모델을 만들 수 있겠으나, 이 경우 늘어난 밴드와 그에 해당하는 델타 및 델타-델타 파라미터로 인해 더욱 많은 저장 공간을 요구하게 된다. 한편, 본 논문에서 제안한 2대역 혼합 여기 모델은 HNM(harmonic + noise model) 음성 모델의 MVF(maximum voiced frequency) 파라미터를 기반으로 한다. 2대역은 MVF 파라미터를 통하여 나누어지는데, MVF 파라미터 값은 하나의 스칼라 값이기 때문에 혼합여기 모델보다 적은 메모리 공간에 저장될 수 있다는 강점이 있다. 따라서 임베디드 시스템에 더욱 적합한 여기모델이다. 제안된 2대역 혼합 여기모델을 HMM 기반 음성 합성에 적용한 뒤, 그 합성음을 전통적인 여기모델 및 Yoshimura 박사 등의 혼합여기모델의 경우와 비교 실험을 하였다. 실험결과를 보면 전통적인 여기모델보다 확실히 성능이 향상되었으며, 혼합여기 모델과 비교할 때에는 거의 비슷하거나 조금 나은 결과를 보여주었다. 또한, LSP 파라미터와 제안된 2대역 혼합여기 모델을 적용하였을 때 가장 좋은 합성음질을 얻어낼 수 있었다.


청구기호 {ICU/DS07-04 2007
형태사항 xiii, 102 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김상진
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 96-102





이 주제의 인기대출도서