서지주요정보
On improving the excitation signal in low-rate celp coding = 저전송 속도에서 부호여기 선형예측 부호화기의 여기신호 개선에 관한 연구
서명 / 저자 On improving the excitation signal in low-rate celp coding = 저전송 속도에서 부호여기 선형예측 부호화기의 여기신호 개선에 관한 연구 / Chul-Hong Kwon.
발행사항 [대전 : 한국과학기술원, 1994].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

8005040

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 94034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The main objective of this dissertation work is to bring the bit rate of a CELP coder to 4.8 kbits/s and lower while maintaining good speech quality. For this purpose, this dissertation work focuses on three major issues, that is, class-dependent modeling, and improving the weighting function and the excitation signal. For the class-dependent model we propose two new models which classify speech segments and use a different coding structure for each class. And, for the improved weighting function we propose a function which suppresses noise between harmonics of speech spectrum. Finally, for the improved excitation modeling we propose an excitation source with peaky pulse characteristic. First, we propose a CELP-based mixed source model (C-MSM) coder at 3 kbits/s. The coder classifies speech segments into three types: voiced, unvoiced and mixed. The class decision for each speech segment and the voiced/unvoiced determination for each frequency band are done by minimizing the perceptually weighted mean-squared error between an original and the corresponding reconstructed speech. The excitation for a voiced frame is generated from an adaptive source that is the output of a long-term predictor. The excitation for an unvoiced frame is generated from a stochastic source that is the scaled code vector of a Gaussian codebook. For a mixed frame the proposed coder uses a mixed source which combines a lowpass-filtered adaptive source and a highpass-filtered stochastic source. Simulation results show that the mixed source greatly reduces the buzzy quality associated with conventional LPC vocoders. According to listening tests, the proposed coder at 3 kbits/s is clearly superior to conventional LPC vocoders and is comparable to 4.8 kbits/s CELP coders. Second, we propose an improved weighting function in the error criterion. In general, the performance of a speech coder is heavily dependent on the selection of a weighting function in the error criterion. Previous methods of weighting in the conventional CELP coder considered only one aspect of applying perceptual criteria, and did not take into account the pitch periodicity of speech signal. The proposed weighting function utilizes the spectral weighting methodology and also accentuates the periodic character in voiced sound. The function adapts to variation of pitch by itself without any pitch estimation in voiced sound and is also applicable to all speech segments without any voiced/unvoiced discrimination algorithm. Spectra of speech segments generated by the proposed method reveal that noise between adjacent harmonics does not appear, and the periodic pulse behavior of an excitation signal produced by the proposed method is much more apparent than that of the conventional CELP coder. Third, we propose a weighting-dependent mixed source model (WD-MSM) coder that is an improved version of the C-MSM coder. The WD-MSM coder has a structure similar to the C-MSM coder, that is, it classifies speech segments into three types: voiced, unvoiced and mixed. The excitation for each class is similar to that of the C-MSM coder, but its parameters are obtained by applying different weighting to each class. The excitation for a voiced frame is the adaptive source, and the excitation search process uses the improved weighting function as mentioned above. The excitation for an unvoiced frame is the stochastic source, and the spectral noise weighting function like in the conventional CELP coder is used. For a mixed frame we propose a modified mixed source which combines the lowpass-filtered adaptive source and the residual source. The excitation search process for the lowpass-filtered adaptive source uses a weighting function which accentuates periodic characteristics, that is, the improved weighting function. As for the residual source, we use a lowpass-filtered version of the spectral weighting function of the conventional CELP coder. Simulation results show that the proposed coder at 4 kbits/s yields the output speech quality undistinguishable from the 4.8 kbits/s conventional CELP coder both subjectively and objectively. Finally, we propose a new adaptive source which reconstructs the pitch periodicity as well as the formant structure remained in the LPC residual. The source uses different gains for the sample with the largest amplitude (i.e., major excitation signal) and for the rest other samples (i.e., formant excitation signal) by using a two-tap pitch predictor. In the conventional CELP coder the major and the formant excitation have a single identical gain, and it is possible to obtain a lower mean-squared error by matching the original speech to the formant excitation contribution rather than to the major excitation contribution. Hence, the source has poor pulse characteristic. But, in our proposed model we obtain the source with desirable pulse characteristic because the major and the formant excitation have different gains. Simulation results show that peaky pulses at voiced onset and a burst of plosive sound are clearly reconstructed, and that in voiced sound the excitation signal has the desirable peaky pulse characteristic and the pitch periodicity is well reproduced.

본 논문의 목적은 좋은 음성품질을 유지하면서 CELP 부호화기의 전송속도를 4.8 kbits/s 이하로 낮추는 데 있다. 이를 위하여 두 개의 class-dependent model을 제안하였는데, 이 모델들은 음성신호를 특성에 따라 몇 개의 class로 나누어 각 class에 적절한 coding 구조를 갖는다. 또한 유성음의 음성품질을 향상시키기 위해 두 가지 방법을 제시하였는데, 하나는 weighting function을, 다른 하나는 여기신호를 개선시키는 방법이다. 제안된 알고리즘들의 내용은 다음과 같다. 첫째로, class-dependent model로서 CELP에 기초를 둔 mixed source model을 제안하였다. 이 부호화기는 음성신호를 세 class로 나눈다. voiced와 unvoiced 그리고 mixed class가 이에 해당된다. voiced class는 adaptive source를, unvoiced class는 stochastic source를 여기신호로 삼는다. 그리고 mixed class에 대해서, 제안된 부호화기는 저역 여파기를 거친 adaptive source와 고역 여파기를 거친 stochastic source를 결합한 mixed source를 사용한다. 제안된 mixed source는 LPC 부호화기의 문제점인 buzzy한 음성품질을 개선시켰다. 3 kbits/s로 구현된 제안된 부호화기는 기존의 LPC 부호화기보다 우수했고, 4.8 kbits/s로 구현된 기존의 CELP 부호화기와 견줄만한 결과를 보여 주었다. 둘째로, 기존의 CELP 부호화기의 거치른 출력음성을 향상시키기 위해 개선된 weighting function을 제안하였다. 일반적으로, 음성 부호화기의 성능은 weighting function의 선택에 크게 좌우된다. 기존의 CELP 부호화기에서 사용된 weighting function은 음성신호의 pitch 주기성을 고려하지 않은 반면에, 제안된 weighting function은 유성음에서 주기적인 특성을 강조한다. 이 function은 유성음에서 pitch를 구하지 않고도 pitch의 변화에 잘 적응하고, 유성음/무성음 구분 없이 모든 음성신호에 적용할 수 있다. 제안된 weighting function을 가진 부호화기에 의해 만들어진 음성신호의 스펙트럼을 관찰해 보면, 인접한 harmonic 사이에 잡음이 제거됐다는 것을 알 수 있다. 또한 제안된 부호화기로 만들어진 여기신호의 주기적인 펄스 특성이 기존의 CELP 부호화기의 그것보다 우수함을 확인하였다. 셋째로, 적용된 weighting function에 의존하는 mixed source model을 제안하였다. 이 부호화기는 앞에서 제안된 mixed source model의 개선된 형태로, 두 부호화기는 유사한 구조를 갖고 있다. 그런데, 이 부호화기는 각 class에 따라 적절한 weighting function을 적용함으로써 여기신호의 파라미터를 얻는다. voiced class는 주기적인 특성을 강조하기 위해 앞에서 제안된 weighting function을, unvoiced class는 기존의 CELP 부호화기에서 사용된 weighting function을 사용한다. mixed class인 경우에, 저역 여파기를 거친 adaptive source와 stochastic source를 결합한 수정된 mixed source를 제안하였다. 4 kbits/s로 구현된 제안된 부호화기를 기존의 4.8 kbits/s CELP 부호화기와 비교해 보면, 주관적인 면에서나 객관적인 면에서 구별하기 어려운 음성품질을 보여 주었다. 마지막으로, LPC residual의 pitch 주기성뿐만 아니라 formant 구조를 잘 복원할 수 있는 adaptive source model을 제안하였다. 이 source는 가장 큰 크기를 갖는 sample(major excitation signal)과 이 sample을 제외한 나머지 sample(formant excitation signal)에 별개의 gain을 갖는다. 기존의 CELP 부호화기에서 adaptive source는 펄스 특성이 좋지 않지만, 제안된 source는 major excitation과 formant excitation에 별개의 gain은 가짐으로써 우수한 펄스 특성을 보여 주었다. 시험 결과, 제안된 adaptive source는 파열음의 burst와 voiced onset에서의 펄스 그리고 유성음에서의 pitch 주기성을 잘 복원시켰다.

서지기타정보

서지기타정보
청구기호 {DEE 94034
형태사항 vi, 124 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 권철홍
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 111-122
주제 음성 처리. --과학기술용어시소러스
예측 부호화. --과학기술용어시소러스
무게 함수. --과학기술용어시소러스
부호기. --과학기술용어시소러스
Vocoder.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서