서지주요정보
Very low bit-rate speech coding using perceptual properties of human ear = 인간의 청각 특성을 이용한 극저전송률 음성 부호화
서명 / 저자 Very low bit-rate speech coding using perceptual properties of human ear = 인간의 청각 특성을 이용한 극저전송률 음성 부호화 / Woo-Jin Han.
저자명 Han, Woo-Jin ; 한우진
발행사항 [대전 : 한국과학기술원, 2002].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8013457

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 02017

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

등록번호

9008794

소장위치/청구기호

서울 학위논문 서가

DCS 02017 c. 2

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

A major application of speech processing concerns digitally coding the speech signal for efficient, secure storage and transmission. It is very important to determine speech model parameters accurately and quantize them with as few bits as possible without introducing additional perceptual distortion as minimization of bit-rates is the ultimate aim in these applications. There have been considerable researches to encode the speech signal efficiently with bit-rates as small as possible. Among them, multi-band linear predictive coding (MB-LPC) vocoders can produce natural quality speech at a bit-rate as low as 1.2 kbit/s. Although the 1.2 kbit/s MB-LPC vocoder performs well in most cases, further bit-rate reductions can be achieved by considering several issues. One is that voiced/unvoiced decisions of the MB-LPC vocoder are binary values (voiced or unvoiced) so that the interpolation of them between neighboring frames, which is necessary to reduce total bit-rates, cannot be easily done. Another issue is the distortion measure that decides how the quantization and interpolation of model parameters should be performed. In the MB-LPC vocoder, all model parameters are detemined and quantized to minimize the spectral distortion (SD) between the original and synthesized spectra. Since the SD is not exactly proportional to the perceptual distortion actually received in a human ear, the coding performance can be further improved by using the perceptual properties of human auditory system. In this thesis, we propose a new mixed critical band linear predictive coding (MCB-LPC) speech model to overcome major drawbacks of the MB-LPC speech model. In the MCB-LPC speech model, the excitation signal can be represented by the real-valued function of the voiced/unvoiced components on the frequency axis instead of binary voiced/unvoiced decisions of the MB-LPC speech model. This allows the voiced and unvoiced components to be mixed together within the same frequency region and makes it possible to model the speech signal more accurately. It is well known that the noise-to-mask ratio (NMR) defined as the log distance between the distortion and masking threshold has high correspondence with the actual distortion received in the human ear. However, the NMR cannot be used directly for the purpose of quantization due to its high computational complexity. In this thesis, a new simplified distortion measure, namely, perceptually weighted Euclidean distance (PWED), is derived from the definition of the average NMR. The PWED has the same form as the conventional weighted Euclidean distance widely used for quantizing spectral parameters except that the weight consists of two separate parts, the conventional weight and the weight related to average signalto-mask ratio (SMR). In addition, two new spectral quantization schemes, N-best vector quantization (NBVQ) and multi-codebook vector quantization (MCVQ), are proposed. The fixed bit-rate scheme, NBVQ, chooses the final codeword vector by minimizing the NMR from N candidates that are predetermined by minimizing the PWED. The variable bit-rate scheme, MCVQ, extends the typical split vector quantization (SVQ) scheme to have multiple codebooks with different sizes instead of the use of only one code-book for each LSF subvector in the conventional SVQ. A new frame interpolation technique based on the perceptual distortion measure is also proposed to reduce total bit-rates below 1 kbit/s. Experimental results have shown that the proposed NBVQ scheme requires 20 bit/frame for obtaining 86.6% perceptually transparent frames, while the conventional SVQ produces 83.4% at even 26 bit/frame. Furthermore, only average 14 bit/frame is sufficient for obtaining 96.7% perceptually transparent frames for the MCVQ scheme. By jointly combining the proposed quantization and frame interpolation techniques, final two proposed systems based on the NBVQ and MCVQ can achieve almost same speech quality at bit-rates 820 bit/s and 700 bit/s, respectively, to that of the 1200 bit/s MB-LPC speech coder.

음성 신호를 효과적으로 디지털화 함으로써 저장 공간 및 전송 선로를 효과적으로 사용할 수 있도록 하는 음성 부호화 기술은 음성 기술 분야에서 매우 중요한 위치를 차지하고 있다. 음성 부호화 분야에서는 전송률을 최소화 함으로써 압축률을 높이는 것이 가장 중요한 목표이기 때문에 음성 신호로부터 모델 파라미터를 정확하게 추정하고 이를 최소한의 비트수 만으로 양자화하는 것이 매우 중요하다. 지금까지 음성 신호를 가능한 한 적은 비트 수 만으로 양자화하기 위해 많은 연구가 수행되어 왔다. 그 중에서 다중 대역 선형 예측(multi-band linear prediction coding; MB-LPC) 기반 부호화기는 1.2 kbit/s의 매우 낮은 전송률에서도 자연스러운 합성음을 생성할 수 있음이 알려져 있다. 대부분의 경우, 기존의 MB-LPC 음성 부호화기가 만족스러운 합성음을 생성할 수 있지만 몇 가지 문제점을 개선함으로써 합성음의 음질을 그대로 유지하면서도 전송률을 더욱 낮출 수 있다. 첫 번째 문제점으로, MB-LPC 음성 부호화기의 음성 모델이 사용하는 유/무성음 대역 판단 정보는 이산적인 값을 가지기 때문에 전체 비트율을 더 낮추기 위해서 필수적으로 사용되는 인접 프레임간의 보간 과정이 쉽게 이루어지지 않는다. 한편, 양자화 과정 및 프레임 보간 과정에서 모두 사용되는 에러 척도에도 개선할 여지가 남아 있다. MB-LPC 부호화기의 경우, 원음 스펙트럼과 합성음 스펙트럼 간의 스펙트럼 왜곡(spectral distortion; SD)을 최소화 하도록 모든 모델 파라미터를 추정한다. 하지만, SD는 인간의 청각 기관에서 실제로 지각되는 청각 왜곡과 완전히 일치되지 않으므로 인간의 청각 기관이 갖는 특징들을 잘 반영하는 왜곡 척도를 사용함으로써 부호화 성능을 개선할 수 있다. 본 논문에서는 먼저, MB-LPC 음성 부호화기의 단점을 해결하기 위한 새로운 음성 모델로서, 혼합 청각 대역 선형 예측(mixed critical band linear predictive coding; MCB-LPC) 모델을 제안하였다. MCB-LPC 모델에서는 기존 MB-LPC 모델과는 달리 음성의 음원에 해당하는 여기신호 정보를 주파수 영역에서의 유/무성음 성분의 혼합 비율로서 표현한다. 이러한 표현 방식은 유성음 성분과 무성음 성분이 같은 주파수 영역을 공유할 수 있도록 허용함으로써 음성 스펙트럼을 보다 정확하게 표현할 수 있는 장점이 있다. 잡음 성분과 마스킹 임계치와의 로그 거리로서 정의되는 잡음 대 마스킹 비(noise-to-masking ratio; NMR)는 인간의 청각 기관에서 지각되는 왜곡과 높은 상관 관계를 가진다고 알려져 있다. 하지만 NMR의 계산을 위해서는 많은 연산량이 필요하므로 직접 양자화에 사용하기는 힘들다. 본 논문에서는 인간의 청각 시스템이 갖는 특징들에 기반한 새로운 청각 에러 척도인 청각 가중 유클리드 거리(perceptually weighted Euclidean distance; PWED)를 제안하였다. 제안된 척도는 평균 NMR의 정의로부터 직접 유도되었으므로 청각 특성을 잘 반영하면서도 기존의 가중 유클리드 거리와 같은 형태를 가지므로 적은 연산량만으로도 계산 가능한 장점이 있다. 한편, 본 논문에서는 스펙트럼 파라미터에 대한 효과적인 벡터 양자화를 위해서 고정 비트율 벡터 양자화 방법인 N-best 벡터 양자화(N-best vector quantization; NBVQ)와 가변 비트율 양자화 방법인 다중 코드북 벡터 양자화(multi-codebook vector quantization; MCVQ)를 제안하였다. NBVQ는 PWED를 최소화하도록 선택되어진 N개의 후보 벡터들 중 NMR을 최소로 하는 최종 벡터를 선택함으로서 성능을 향상시킨다. MCVQ는 기존의 분할 벡터 양자화(split vector quantization; SVQ)를 확장하여 분할된 하나의 LSF 부분 벡터마다 서로 다른 크기를 갖는 복수개의 코드북을 사용하며 청각 왜곡의 지각 여부를 효과적으로 검사할 수 있도록 설계된 청각 기반 척도들을 이용하여 평균 비트율을 최소화한다. 실험 결과 제안된 NBVQ 방법은 20 bit/frame의 낮은 전송률에서도 86.6%의 청각적으로 왜곡이 느껴지지 않는 프레임 비율(ratio of perceptually transparent frame; RPTF)을 얻음으로써 기존 방법이 26 bit/frame의 더 높은 전송률에서도 83.4%의 PTF 비율을 얻은데 비해 성능을 개선할 수 있었다. 또한, MCVQ 방법의 경우 평균 14 bit/frame의 매우 낮은 전송률에서도 96.2%의 RPTF를 얻어 가장 좋은 성능을 얻었다. 최종적으로, 남녀 각 3 문장을 대상으로 수행한 청취 실험 결과 제안된 방법들을 모두 적용하여 구현된 두 음성 부호화기들은 각각 820 bit/s와 700 bit/s의 매우 낮은 전송률에서도 1200 bit/s의 전송률을 갖는 기존 음성 부호화기인 MB-LPC와 거의 대등한 성능을 얻음으로써 제안한 방법들이 합성음 음질을 저하시키지 않으면서도 전송률을 크게 낮출 수 있음을 보였다.

서지기타정보

서지기타정보
청구기호 {DCS 02017
형태사항 xii, 95 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 한우진
지도교수의 영문표기 : Yung-Hwan Oh
지도교수의 한글표기 : 오영환
수록잡지명 : "Perceptual adaptive multi-band excitation coder using masking properties of the human ear". IEE electronics letters, v.36 no.13, pp. 1166-1168 (2000)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 89-95
주제 very low bit-rate speech coding
percpetual properties
line spectral frequency
vector quantization
극저전송률 음성 부호화
청각 특성
선 스펙트럼 주파수
벡터 양자화
QR CODE qr code