서지주요정보
Speech enhancement and coding at medium-low rates = 음질 향상 및 중대역에서의 음성 부호화에 관한 연구
서명 / 저자 Speech enhancement and coding at medium-low rates = 음질 향상 및 중대역에서의 음성 부호화에 관한 연구 / Dong-Ho Cho.
저자명 Cho, Dong-Ho ; 조동호
발행사항 [서울 : 한국과학기술원, 1985].
Online Access 제한공개(로그인 후 원문보기 가능)원문

소장정보

등록번호

4102806

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 8505

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

In this dissertation work, speech enhancement and coding at medium-low rates (i.e., 4.8 to 16 kbits/s) have been studied. This dissertation work may be divided into five parts. First, adaptive linear prediction based on the frequency-domain block least-mean-square (FBLMS) adaptation algorithm has been studied. A new frequency-weighted block least-mean-square (FWBLMS) algorithm that minimizes frequency-weighted block mean-squared error is proposed and applied to linear prediction of speech. Also, the optimum convergence factors of various adaptive digital filter (ADF) algorithms are derived analytically. In adaptive linear prediction of speech, the use of the FWBLMS algorithm gives several advantages. These include direct residual extraction, the existence of time- and frequency-domain information of input and residual signals and prediction coefficients, inherent noise spectral shaping effect and simultaneous enhancement and coding by the spectral subtraction method in the frequency domain without block delay. Application of the FWBLMS algorithm to multi-rate vocoding is also discussed in detail. Second, enhancement of noisy speech corrupted by white or colored noise is studied. The unconstrained FBLMS (UFBLMS) algorithm with fast convergence speed for correlated input is newly applied to speech processing. For enhancement of speech degraded by white noise, the spectral subtraction method, Wiener filtering and the UFBLMS algorithm are investigated, and their performances are compared by various objective measures. The UFBLMS algorithm is superior to the spectral subtraction method or Wiener filtering technique by more than 3 dB in segmental frequency-weighted signal-to-quantization noise ratio $(FWSQNR_SEG)$ when SNR of speech is in the range of 0 to 10 dB. Furthermore, when the UFBLMS algorithm is used, high-pass filtering may be combined with the enhancement algorithm to improve speech quality and intelligibility. For enhancement of noisy speech corrupted by colored noise, the spectral subtraction method, adaptive prediction filtering and UFBLMS algorithms are studied and compared by various objective measures. Among the three enhancement techniques, the performances of the adaptive prediction filtering and UFBLMS algorithms are superior to that of the spectral subtraction method by about 3 to 5 dB frequency-weighted signal-to-quantization noise ratio (FWSQNR) and $(FWSQNR_{SEG})$. Also, the UFBLMS algorithm yields better performance by about 2 dB in FWSQNR and $FWSQNR_{SEG}$ than that of the time-domain least-mean-square (TLMS) adaptive prediction filter (APF) which yields the best performance among various APF algorithms. In addition, we consider the complexity of various enhancement algorithms discussed above. In view of the computational complexity and performance improvement in speech quality and intelligibility, it may be desirable to use the UFBLMS algorithm with frequency weighting to enhance noisy speech corrupted by white or colored noise. Third, adaptive pre- and post-filtering, adaptive prediction and delayed decision coding are investigated and applied to waveform coders for improvement of the speech quality. The performance of adaptive pre- and post-filters is analyzed theoretically. Also, it is shown that the pre- and post-filters have the effect of noise spectral shaping. Further, it is shown that when the pre- and post-filters are used in a waveform coder such as adaptive differential pulse code modulation (ADPCM) and adaptive delta modulation (ADM), the performance can be improved by about 3 dB in $(FWSQNR_{SEG})$. The second technique used for performance improvement of a waveform coder is the use of an adaptive predictor. The frequency-domain least-mean-square (FLMS) algorithm with fast convergence speed for a correlated source is used in ADPCM. For ADM with a high-order fixed predictor, a significant gain of about 3 or 4 dB in segmental signal-to-quantization noise ratio $(SQNR_{SEG})$ can be achieved at 32 kbits/s. But, it has been found that ADM with an adaptive predictor has a narrower dynamic range because of the accumulation of quantization noise. The third method used for performance improvement is the delayed decision scheme. By using the delayed decision scheme with 3-sample delay for an ADPCM coder, we could obtain a performance gain of about 2 dB in $(SQNR_{SEG})$ regardless of prediction algorithm. For ADM, the delayed decision ADM with a 2-tap predictor yields better performance by about 3 dB in $SQNR_{SEG}$ than the delayed decision ADM with a 1-tap predictor at 16 kbits/s. Fourth, the performance analyses of embedded waveform coders have been done. Also, the performance of variable-rate ADM with adaptive pulse code modulation (ADM-APCM) for efficient residual coding is studied. In addition, performance analysis of a variable sampling rate ADM system is done for single- and multiple-user environments. The performance of the variable rate ADM-APCM gives better performance by about 6 dB at 48 kbits/s and 10 dB at 64 kbits/s in $SQNR_{SEG}$ than the variable rate ADM with adaptive quantizer for residual coding. Finally, an accurate rate distortion bound for a speech waveform coder is investigated. In this study we model the speech source as a composite source to reflect the nonstationary characterisitcs, and use the frequency-weighted mean-squared error(FWMSE) as a fidelity criterion. According to the simulation results, the distribution for the short-time sequence of speech can be modeled by Gaussian distribution, while the distribution for the long-time sequence of speech may be modeled by Gamma distribution. This fact indicates that speech source can be modeled by a composite source. Based on the composite Gauss-Markov or Gaussian autoregressive source and FWMSE measure, we obtain the rate distortion bound for a speech coder with memory. For the memoryless coder, the rate distortion bound is computed based on Blahut's algorithm using mean-squared error (MSE) as a fidelity criterion.

본 논문에서는 음질 향상및 중대역에서의 음성 부호화를 연구하였으며 이 연구는 크게 5분야로 요약할 수 있다. 첫째, 주파수 영역 block LMS ADF에 의한 선형예측에 대해서 연구하였다. Frequency-weighted block MSE를 최소화하는 새로운 frequency-weighted block LMS (FWBLMS) algorithm을 제안하고 음성의 선형예측에 응용하였다. 또한 여러 ADF algorithm들의 최적수렴값을 유도하였다. FWBLMS algorithm은 음성의 적응 선형예측에 있어서 몇가지 장점이 있는데 이들을 열거하면 residual이 직접 추출되고, noise spectral shaping 효과를 갖고 있으며 음질향상과 음성부호화가 주파수 영역에서 동시에 수행된다. 이밖에도 입력 신호, residual 신호및 예측계수에 대한 시간 영역의 정보뿐만 아니라 주파수 영역의 정보도 존재한다. 둘째, 광대역 혹은 협대역 잡음이 섞인 음성의 음질을 향상시키는 방법을 연구하였다. 빠른 수렴속도를 갖고 있는 UFBLMS algorithm을 음성처리에 응용하였다. 광대역 잡음이 섞인 음성의 음질을 향상 시키기 위해서 재래의 spectral subtraction 및 Wiener filtering 방법 뿐만 아니라 새로운 UFBLMS algorithm을 적용하였다. 이때 각 방법들의 성능을 여러 objective measure를 사용하여 비교하였다. 입력음성의 SNR이 0 dB에서 10 dB 사이 일때, UFBLMS algorithm의 성능이 spectral subtraction 방법이나 Wiener filtering 보다도 FWSQNR$_{SEG}$ measure로 약 3 dB 더 좋음을 알수 있었다. 또한 UFBLMS algorithm에서는 high-pass filtering과 음질 향상 algorithm을 동시에 수행 하여 음성의 인식도 및 질을 개선할수 있었다. 협대역 잡음이 섞인 음성의 음질을 향상시키기 위해서 spectral subtraction 방법과 adaptive prediction filtering 및 UFBLMS algorithm을 적용하고 각 방법들의 성능을 여러 objective measure에 의해서 비교 검토하였다. 세 방법중에서 adaptive prediction filtering 및 UFBLMS algorithm의 성능이 spectral subtraction 방법보다 $FWSQNR_{SEG}$ measure로 약 3dB에서 5dB정도 더좋다. 또한 UFBLMS algorithm은 여러 APF algorithm중에서 가장 좋은 성능을 갖고 있는 TLMS algorithm 보다 FWSQNR$_{SEG}$ measure로 약 2dB 정도 성능이 더 좋다. 이외에 여러 음질 향상 algorithm의 계산상의 복잡도를 고려해보면 광대역 또는 협대역 잡음이 섞인 음성의 음질과 인식도를 향상시키기 위해서는 frequency weighting 기능을 갖고 있는 UFBLMS algorithm을 사용하는 것이 바람직함을 알 수 있었다. 셋째, 적응 pre- and post-filtering과 적응예측 및 delayed decision coding을 연구하고 waveform coder의 음질을 개선하기 위해서 waveform coder에 위 세방법을 적용하였다. 적응 pre- and post-filter를 사용할때의 이득을 이론적으로 분석하고 pre- and post-filter가 noise spectral shaping 효과를 갖고 있음을 보였다. Pre- and post-filter를 ADPCM 또는 ADM과 같은 waveform coder에 적용하면 $FWSQNR_{SEG}$ measure로 약 3dB의 성능개선을 얻을 수 있다. 또한 waveform coder의 성능을 개선하기 위해서 FLMS algorithm을 ADPCM의 adaptive prediction에 적용하였다. ADM에 adaptive prediction을 적용하면 $SQNR_{SEG}$ measure로 약 2dB의 gain이 생기지만 quantization noise의 축적 때문에 dynamic range가 매우 좁아짐을 알아내었다. ADM의 경우에 2차 또는 3차 predictor를 사용하면, 32 kbits/s 전송속도에서 $SQNR_{SEG}$ measure로 약 3 또는 4 dB의 이득이 생김을 알 수 있었다. 이밖에 waveform coder의 성능 개선을 위해서 delayed-decision 방법을 하여 보았다. 3-sample delay를 갖는 delayed decision scheme을 ADPCM에 적응하면 $SQNR_{SEG}$ measure로 약 2 dB의 이득을 prediction algorithm과 무관하게 얻을수 있었다. ADM인 경우에는 2 tap predictor를 갖는 delayed decisionADM의 성능이 1 tap predictor를 갖는 delayed decision ADM 보다 SQNR$_{SEG}$ measure로 16 kbits/s 전송속도에서 약 3 dB 정도 좋음을 알 수 있었다. 넷째, embedded waveform coder의 성능을 고찰하였다. 또한 APCM 방식을 embedded coder나 variable rate coder의 residual을 효율적으로 coding하는데 사용하였다. 더불어 variable sampling rate ADM의 성능을 user가 하나일 때와 여러명일 때에 대해서 분석하였다. Variable rate ADM-APCM의 성능이 ADM-AQ보다 $SQNR_{SEG}$ measure로 48 kbits/s 와 64 kbits/s 전송속도에서 약 6 dB에서 12 dB정도 개선됨을 보여주었다. 마지막으로, speech coder에 대한 정확한 rate distortion bound에 대해서 연구하였다. 음성의 nonstationarity를 반영하기 위해서 음성 자체를 composite source로 modeling하고, 귀의 특성을 잘 반영하기 위해서 fidelity criterion으로 FWMSE를 사용하였다. Simulation 결과에 의하면 음성의 short time sequence는 Gaussian distribution으로 modeling할 수 있음을 알 수 있었다. 반면에 음성의 longtime sequence는 Gamma distribution으로 modeling 할 수 있다. 이런결과는 음성이 composite Gaussian source로 modeling될 수 있음을 뒷받침 해준다. 따라서 composite Gauss-Markov 혹은 Gaussian autoregressive source model과 FWMSE fidelity criterion 을 사용하여 memory를 가진 speech coder에 대한 rate distortion bound를 구하였다. Memory가 없는 coder에 대해서는 Blahut의 algorithm 을 사용하여 실제음성에 대한 정확한 rate distortion bound를 계산하였다.

서지기타정보

서지기타정보
청구기호 {DEE 8505
형태사항 xxv, 374 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조동호
지도교수의 영문표기 : Chong-Kwan Un
지도교수의 한글표기 : 은종관
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 Reference : p. 352-373
주제 Prediction theory.
Speech processing systems.
Computer algorithms.
보코더. --과학기술용어시소러스
예측 부호화. --과학기술용어시소러스
음성 합성. --과학기술용어시소러스
적응 시스템. --과학기술용어시소러스
필터 (신호) --과학기술용어시소러스
Vocoder.
Adaptive filters.
QR CODE qr code