서지주요정보
Singing voice generation and phrase emphasis using glottal-waveform = 성대파를 이용한 가창음성 생성 및 어구 강조
서명 / 저자 Singing voice generation and phrase emphasis using glottal-waveform = 성대파를 이용한 가창음성 생성 및 어구 강조 / Jae-Hyun Bae.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022286

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 11009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Research on the speech synthesis area are performed mainly about the plain read speech sentence generation and the quality of the synthesized speech is improved exceedingly. Recent days, dialogic speech style, emotional, expressive speech synthesis area is widely being studied. And researches about the voice quality which means the color of the voice are performed also. Among these, studies on the expressive TTS are mainly focused on corpus based method. this method records the pronunciations of various circumstances and use proper units among them for the proper context. In the corpus based synthesis, natural speech segments are used with almost no modification. The advantage of this way is that synthetic speech is very natural. But there is some disadvantages also. One of which is that we have to record huge amount of speech sentences to cope with various circumstances. Therefore in the unprepared context, naturalness of the synthetic speech may be degraded. Another disadvantage is that the synthetic speech may have different prosody compared to the target prosody that prosody module produce. Among the research area on the voice color, area on the glottal waveform is widely performed. In this area, modeling and modifying the the glottal waveform are studied and produces the high quality synthetic speech. In this paper, we want to generate the speech in which key phrase is emphasized from the plain read speech sentence by transforming the glottal waveform. Plain synthetic speech sentence of conventional TTS system cannot express the speaker`s intention. On the contrary, in the real environment, people may emphasize the keyword or phrase which they want to deliver clearly. The emphasized keyword or phrase has strong voice color than other phrases. By utilizing this phenomenon, we want to emphasize the keyword or phrase which is the contextual core in the sentence. we use glottal waveforms to make the re-synthesized speech be more natural. To estimate the glottal waveform from the speech sentence, we use Linear Predictive analysis(LP analysis). Vocal tract filter and the glottal waveforms are estimated using LP analysis. Derivatives of the the glottal waveforms are extracted by inverse filtering the radiation effect. We adopt the LIjencrant Fant model(LF-model) for modeling the derivatives of the glottal waveform. By manipulating the parameters of the LF-model, we can modify the voice color of the speech which is the target phrase we want to emphasize. After modifying the voice color, we produces the speech with the emphasized phrase using LP-synthesis process. In this paper, we produce singing voice using glottal waveform transformation. The pitch of the natural singing voice varies for wide range even over the several octaves. But conventional pitch modification algorithm showed that naturalness and the voice color is maintained within tens of percentage of modification range. If the modification factor is excessive, naturalness and the voice color are degraded rapidly. Recently, vocoders based on LF-model showed the ability of preserving naturalness and voce color with wide range of modification factor. But the IAIF(Iterative Adaptive Inverse Filtering) algorithm used in this vocoder is not guarantee the result which means that IAIF may fail to extract glottal waveform. Furthermore this vocoder needs massive computation. Proposed method in this paper estimates the glottal waveform and the LF-model parameters using LP-analysis. For modifying the pitch period, we divide the glottal waveform for every pitch period and manipulates the divided regions according to the characteristics of corresponding region. Finally, we can get singing voice by using LP synthesizer with pitch modified derivative signal. To validate the proposed method, objective, and subjective experiments were performed. For phrase emphasis, we performed listening experiments. test result shows that emphasis of the target phrase in the sentence are expressed well. For singing voice generation, we estimate the spectral distortion and listening test were done for naturalness and clearness estimation. experimental results show that proposed method can preserve the voice color within one octave pitch modification.

음성합성에 관한 연구는 주로 서술형 낭독체 표현에 관하여 많은 연구가 이루어졌으며, 음질또한 매우 향상되었다. 최근에는 서술형 낭독체 표현에서 벗어나, 대화체 합성기, 다양한 감정표현을 할 수 있는 Expressive TTS, 음색의 변화에 관한 Voice Quality에 관한 연구 등 많은 분야가 발전하고 있다. 이 중 Expressive TTS에 대한 연구로는 대규모 코퍼스 기반 방식을 바탕으로 하고, 상황에 따른 다양한 발성을 녹음하여 문맥에 맞춰 적용시키는 방식이 주류를 이루고 있다. 이러한 방식은 자연음을 거의 수정하지 않고 그대로 사용할 수 있으므로, 자연스러운 합성음을 생성할 수 있다는 장점이 있으나, 상황에 따른 다양한 표현을 전부 녹음하여 보유하여야 하므로, 코퍼스의 크기가 매우 커지게 되며, 고려되지 않는 상황에 대해서는 자연스러운 합성음을 생성하기 어렵다는 단점이 있다. 또한 생성된 운율과 다른 합성음이 생성되기도 한다. 음색의 변화에 관한 Voice Quality에 관한 연구는 음성의 성대파를 연구하는 분야로, 성대파를 모델링하고, 이를 이루는 파라미터를 분석하고 연구하는 분야이다. 성대파 파라미터를 조절하여 피치 등을 조절하고, 음성 DB의 음색을 고르게 조절하는 등의 연구가 수행되었으며, 특히 피치 조절의 경우 성대파(glottal wave) 파라미터를 조절함으로써 스펙트럼 영역에서 harmonics를 조절하거나, 시간영역에서 음성파형 자체를 수정하는 TD-PSOLA 등의 방식에 비해 많은 음질향상이 이루어지고 있다. 본 논문에서는 음성의 성대파 파라미터를 조절하여 평범한 낭독체로 발화된 음성 문장 내에서 강조하고자 하는 어구를 잘 표현하고자 한다. 기존의 서술형 낭독체 음성에서는 화자의 의도를 배제한 채 평범한 문장을 표현하였다. 그러나 실제 환경에서는 발성 문장 중 새로운 정보를 나타내거나 강조하고 싶은 어절이나 단어가 있는 경우, 이 부분을 강조하여 두드러지게 하고자 하며 이때 보통때보다 강한 음색을 가진 음성으로 표현함으로써 화자의 의도를 표현한다. 본 논문에서는 이러한 현상을 이용하여, 한 문장의 음성 내에서 의도적으로 강조하고자 하는 어절이나 단어 등을 같은 문장 내의 다른 어구에 비해 강조하여 표현하고자한다. 이때, 성대파의 파라미터를 조절하고, 이를 이용함으로써 보다 자연스러운 어구의 강조를 하고자 한다. 이를 위하여 음성을 선형예측분석법(Linear Predictive Analysis)을 이용하여 성대파와 조음정보(Vocal Tract Filter)를 추출하고 이를 LF-모델(Lijencrant Fant model)로 모델링한다. 그 후 LF-모델의 파라미터를 조절하여 강조하고자 하는 어구의 성대파를 변환한다. 이후 변환된 성대파를 다시 조음정보와 결합하여 원하는 어구가 강조된 음성 문장을 재생성한다. 또한 본 논문에서는 음성의 성대파 변환을 이용한 가창음성 생성을 생성하고자 한다. 가창음성의 피치 변화를 살펴보면 수 개의 옥타브를 넘나듦을 알 수 있다. 그러나 기존의 피치 변환 알고리즘은 수십 퍼센트의 변화에만 비교적 음색이 유지되며, 그 범위를 넘어서는 경우에는 음색이 급격히 떨어진다. 최근에 발표된 LF-모델 기반의 보코더에서는 변환율이 큰 경우에도, 음색의 보존이 잘 되고 있다. 그러나 이 보코더의 경우, LF-모델의 파라미터 추출에 쓰이는 IAIF 알고리즘이 항상 제대로 동작하는 것은 아니며, 보코더의 동작에 컴퓨팅 비용이 많이 소요된다. 본 논문에서 제안한 방법은 LF-모델의 파라미터와 성대파를 선형예측 분석을 통해 추출하며, 추출한 성대파의 한 주기를 그 특성에 따라 여러 부분으로 나누고, 각 부분 특성에 따라 피치 변환을 수행한다. 그 후, 변환된 성대파를 선형 예측 기반 합성기로 재 합성하여 피치 변환된 음성을 생성한다. 제안한 방법의 유효성을 검증하기 위해 객관적, 주관적인 실험을 수행하였다. 의도표현의 경우, 청취 실험을 수행하였고, 실험결과 기존 서술형 낭독체 문장내에 강조하고자 하는 부분이 잘 표현되었음을 알 수 있었다. 가창음성 생성법의 경우, 여러가지 변환 율로 생성된 음성에 대하여, 스펙트럼 왜곡을 측정하였고, 명료도와 자연성에 대해 청취 실험을 수행하였다. 실험 결과 한 옥타브 내에서는 제안한 방법이 원음의 음색을 잘 보존하면서 피치를 변환함을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DCS 11009
형태사항 viii, 59 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 배재현
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 53-56
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서