서지주요정보
Speech synthesis and speaker modification based on two-band speech model = 2대역 음성모델에 기반한 음성합성 및 화자변환
서명 / 저자 Speech synthesis and speaker modification based on two-band speech model = 2대역 음성모델에 기반한 음성합성 및 화자변환 / Eun-Kyoung Kim.
발행사항 [대전 : 한국과학기술원, 2003].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8014431

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 03012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Speech analysis/synthesis is a technique for analyzing speech signal, converting it to suitable parameters, modifying and resynthesizing speech signal from them, and it is essential for high-quality speech synthesis, speech coding, and seaker modification.For a speech analysis/synthesis, a lot of speech models based on a speech production mechanism have been proposed, and they represent speech signal by several meaningful sets of model parameters. Two-band speech model that is a simplified form of a harmonic/stochastic (H/S) model assumes that voiced and unvoiced characteristics can be mixed in one speech frame and their regions are divided into two bands by the time-varying frequency. The voiced region (periodic part) that has strong periodic characteristics is generally modeled by a sum of sinusoids, whereas the unvoiced region (random part) that does not have periodic characteristics is modeled by a linear filtered signal of white Gaussian noises. The frequency dividing periodic part and random part is called as band-splitting frequency. Since an accurate separation of two parts is a key part of the two-band speech model, it is very important to determine the reasonable band-splitting frequency for the high-quality synthesized speech. In this thesis, a new score function for splitting periodic and random parts of two-band speech model is proposed and the algorithm determining the band-splitting frequency by choosing the value that maximizes the function is described. At first, the combined subband periodicity score (CSPS) function defined as a sum of a periodicity score of lower band spectrum and an non-periodicity score of upper band spectrum for an arbitrary frequency is computed by an autocorrelation function. Furthermore, a recurrence relation is derived for reducing the computational complexity of the CSPS function and a tracking technique for guaranteeing the continuity between neighboring frames is proposed. Experimental results have shown that the proposed methods can determine the accurate band-splitting frequency not only for speech frames having a pure voiced or unvoiced components but also for speech frames having both voiced and unvoiced components. In addition, the proposed methods produce better performance compared to the conventional methods based on the experimental thresholds for determining the band-splitting frequency. Based on the two-band speech modeling using the proposed methods for determining the band-splitting frequency, a full speech analysis/synthesis system is designed and the time- and pitch-scale modifications of speech, speech coding, and speaker modification are implemented. For a time- and pitch-scale modifications of speech, the speech analysis/synthesis system based on the proposed two-band speech model chooses the pitch synchronous analysis, which enables us to design more robust and simple speech modification system. In addition, the speech coding system based on the two-band speech model is proposed. The 1.2 kbps multi-band LPC speech coders using the frame interpolation techniques have a shortcoming that the pitch value is transferred for all frames rather than alternative frames for preventing the significant degrade of speech quality due to the strong relationship between the voiced/unvoiced information and the pitch. In this thesis, a band-splitting frequency replaces the voiced/unvoiced decisions of multi-band model and it is interpolated between neighboring frames. Since the band-splitting frequency is independent of the pitch value, the pitch value can be transferred and interpolated for alternative frames, thus the proposed speech coding system can produce the comparable speech quality to the 1.2 kbps multi-band LPC speech coders at very low bit-rates such as 880 bps. Finally, the speaker modification system converting the speaker characteristics of speech signal is proposed. In the proposed system, model parameters of two-band speech model is divided into two major groups, which are the vocal tract parameters and the glottal source parameters. And then, the two groups of model parameters for the source speaker are transformed by using different methods to have the characteristics of the target speaker. For the vocal tract parameters, hidden Markov model (HMM) based speaker modeling technique is proposed. The proposed speaker modeling can enhance the modeling power of the feature spaces of the speakers compared to the conventional vector quantization based method, and has an advantage that the probabilistic transitions between subspaces of speakers are possible by using the transition probabilities of HMM. The conversion rules for each state are trained by a linear multivariate regression (LMR) method for the features of source and target speakers collected for each state based on the HMM based speaker models. The histogram modification techniques are used for converting the glottal source parameters. Experimental results have proven that the transformed speech has a similar characteristics compared to those of target speakers.

음성의 분석합성은 음성을 분석하여 파라미터화하고 이를 가공하여 재합성하는 과정을 말하며 고품질의 음성합성 및 음성변환을 위해서 가장 필수적인 요소중 하나이다. 음성의 분석합성을 위해 일반적으로 인간의 발성기관을 모델링하는 음성 생성 모델에 근거한 여러가지 음성모델들이 사용되는데 이들은 각각 다른 파라미터 집합으로 음성을 표현한다. Harmonic/stochastic (H/S) 모델의 간략화 형태인 2대역 음성모델은 음성의 주파수 영역을 유성대역과 무성대역의 두 부분으로 나눌 수 있다고 가정하고 이들을 각각 다른 방법으로 모델링하는 방법으로, 일반적으로 주기성을 갖는 저주파 영역인 유성대역은 정현파의 합으로 표현하며 주기성이 없는 고주파 영역인 무성대역은 백색잡음의 선형 필터링으로 표현한다. 이때 유성영역과 무성영역의 경계가 되는 주파수를 대역 분할 주파수라 하며 고품질의 합성음을 위해 정확한 예측이 필요하다. 본 논문에서는 신뢰성 있는 대역 분할 주파수의 예측을 위해서 score 함수를 정의하고 이를 최대화하는 주파수를 대역 분할 주파수로 결정하는 방법을 제안하였다. 먼저 임의의 주파수에 대해 저주파 영역의 주기성 점수와 고주파 영역의 비주기성 점수의 합으로 정의되는 혼합 부대역 주기성 함수(Combined Subband Periodicity Score Function; CSPS Function)를 정의하고 이를 정규화된 자기상관 함수값을 이용하여 계산하였다. 또한 CSPS 함수 계산의 연산량 감소를 위한 재귀적 관계식(recurrence relation)을 유도하고, 인접 프레임간의 연속성 보장을 위해 평활화 기법을 도입하여 대역 분할 주파수를 구한다. 실험 결과 제안된 방법은 순수한 유/무성음뿐만 아니라 유/무성 성분이 혼합된 경우에도 정확한 대역분할 주파수의 예측이 가능했으며, 일반적으로 사용되는 임계치와의 비교에 기반한 대역 분할 주파수 결정법에 비하여 보다 좋은 성능을 나타냄을 알 수 있었다. 제안된 대역 분할 주파수 결정법을 이용한 2대역 음성 모델링에 기반하여 음성 분석/합성 시스템을 설계하고 이를 바탕으로 음성의 시간축 및 주파수축 상의 변환, 음성부호화, 화자변환 등을 수행하였다. 음성의 시간축 및 주파수축 상의 변환을 위해 2대역 모델 기반의 음성 분석/합성 시스템은 피치 동기화 분석을 채택하여 구현되었다. 피치 동기화 분석법에 의해 보다 강인하고 간단한 시간 및 주파수 변환이 가능해졌다. 또한 2대역 음성모델에 기반한 음성부호화기를 구현하였다. 일반적으로 프레임 보간법에 의해 1.2 kbps의 전송률을 갖는 다중대역 LPC 음성부호화에서는 음질의 저하를 막기 위해 피치값은 프레임 보간하지 않고 매 프레임마다 전송하는 단점이 있다. 본 논문에서는 다중대역모델의 고조파별 유/무성 정보대신 2대역 음성모델의 대역 분할 주파수를 전송하여 프레임 보간하며, 대역 분할 주파수로 유/무성 정보를 표현함으로써 피치값을 매 프레임 전송하지 않고 프레임 보간하여 880 bps 까지 비트율을 낮추면서도 기존의 1.2 kbps의 음성부호화기와 대등한 성능을 가지게 하였다. 마지막으로 음성의 개인성 특성인 화자정보를 변환하는 화자변환기를 구현하였다. 본 논문에서는 2대역 음성 모델의 파라미터를 크게 성도특성 파라미터와 음원정보 파라미터로 구분하고 이를 각각 입력되는 원시화자의 특성이 아닌 목적화자의 특성을 갖도록 변환하였다. 성도특성 파라미터의 변환을 위해 HMM 기반의 화자 모델링 방법을 제안하였다. HMM 기반의 화자 모델링은 기존의 벡터 양자화 기반의 방법에 비해 보다 자세한 모델링 효과를 얻으며 HMM의 천이 확률값을 이용하여 화자의 부공간 사이의 확률적 천이가 가능한 장점을 가진다. HMM기반의 화자모델을 기반으로 각 상태별로 수집되는 원시화자와 목적화자의 데이터 집합을 이용하여 선형 다변량 회귀분석법을 통해 각 상태별 변환 규칙을 학습하였다. 또한 음원정보 파라미터의 변환을 위해 히스토그램 변환법을 이용하였다. 제안된 방법으로 적용한 결과 변환음이 목적화자에 보다 가까운 음색을 가짐을 실험 결과 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {DCS 03012
형태사항 ix, 82 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김은경
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "A new band-splitting method for two-band speech model". IEEE signal processing letters, v.8 no.12, pp.317-320 (2001)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 79-82
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서