서지주요정보
Comparative study on korean read and dialogue speech characteristics = 한국어 낭독 형식 음성과 대화체 음성의 특성 연구
서명 / 저자 Comparative study on korean read and dialogue speech characteristics = 한국어 낭독 형식 음성과 대화체 음성의 특성 연구 / Hee-Sik Yang.
발행사항 [대전 : 한국정보통신대학원대학교, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0000217

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS02-23 2002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For more frequent applications of synthetic speech in daily life, the speech quality improvement of presently available speech synthesizers in the sense of naturalness is very important. But it cannot be denied that still the naturalness of present synthetic speech is far from satisfaction. This study aims to provide some useful information on Korean read- and dialogue-style prosodic and phonetic characteristics in the hope of its future use for the improvement of synthetic Korean speech naturalness. In order for the prosodic and phonetic characteristics exploitation, four features such as the spectrogram, the short-time energy, the pitch frequency, and the duration are mainly utilized. Firstly, spectrogram analysis shows dialogue-style speech generally has more severe coarticulation effect than that of dictation-style speech and, as a result, allophones are much more different from the original corresponding phonemes in the sense of their frequency characteristic. Both the short-time energy and the pitch frequency tend to be higher in dialogue-style speech while their variances also larger. However, no clear relationship between them is observed. Finally, the duration of dialogue-style speech shows much larger variance as expected. This phenomenon might be caused by several factors, such as speaker’s emotion, speaking style, understanding level, etc. By the way, it is clearly observed that accented speech, usually encountered in dialogue-style speech more frequently, is shortened. Our results confirm that dialogue-style and dictation-style speech are significantly different from each other both in their phonetic and prosodic characteristics. This suggests that current Korean synthesizers based on the dictation-style speech database may fail to achieve acceptable naturalness when dialogue-style speech synthesis is tried by utilizing only the prosodic information of dialogue-style speech.

최근까지의 음성 합성 기술은 명료도 면에서는 상당한 수준의 성과를 이루어 냈지만, 아직 자연성이 떨어진다는 평가를 받고 있다. 자연성이란 자연스러운 대화체 음성과 비슷한 정도를 나타내는 척도라 할 수 있는데 현재의 한국어 합성 기술은 지금까지 얻어진 명료도에 자연성을 높이기 위한 노력들을 하고 있다. 운율정보의 조작으로 자연스러운 음성을 합성 해 낼 수 있다는 것이 대표적인 자연성 추구 방법인데 이 논문에서는 운율 정보의 조작으로 대화체 같은 자연성을 확보 할 수 있는지를 검증하고자 하였다. 검증을 위해서 20대이 동일한 화자가 발성한 동일한 한국어 PBW가 포함된 시나리오에 근거, 대화체 음성과 낭독체 음성을 녹음하고, 녹음된 각각의 음성에 대해서 4가지 정보 즉 포만트 주파수, 단구간 정규화 에너지, 피치 주파수, 지속기간을 비교 분석하였다. 먼저 포만트 주파수는 양 음성에서 조음효과에 의한 변이음이 생성되었는데 이 변이의 정도가 대화체에서 더 크게 나타났다. 정규화 에너지와 피치 주파수는 유사한 형태의 패턴을 보였지만 그 진폭과 변화량에 있어 대화체 음성이 더욱 커 단순한 관계식으로 표현 할 수 없음을 보였다. 음의 지속기간에 있어서는 강세를 가지는 대화체 음성이 짧아지는 경향이 있기는 하지만 그 변화 형식은 일정하지 않고 낭독 음성이 비교적 일정한 지속기간을 가지는 반면 대화체 음성은 지속기간의 변화가 동일한 단어에 대해서 크게 나타났다. 이상의 결과에 따라 낭독 음성과 대화체 음성은 단순한 관계식으로 표현하기 어려움을 알 수 있으며, 따라서 현재의 합성기술이 사용하는 낭독체 음성 데이터 베이스로서는 자연스러운 음성을 합성하기에는 한계가 있을 것으로 추정된다. 대화체 음성 데이터를 기반으로 한 합성 기술이 자연스러운 음성을 합성 하기 위한 대안으로 제시 될 수 있는데, 대화체 데이터 베이스 확보 및 대화체 DB를 이용한 합성으로 현재의 명료도를 어떻게 유지할 것인가가 남은 과제가 될 것이다.

서지기타정보

서지기타정보
청구기호 {ICU/MS02-23 2002
형태사항 ix, 51 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 양희식
지도교수의 한글표기 : Min-Soo Hahn
지도교수의 영문표기 : 한민수
학위논문 학위논문(석사) - 한국정보통신대학원대학교 : 공학부,
서지주기 References : p. 62
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서