서지주요정보
Performance improvement of speech coder in adverse communication environments = 잡음이 있는 통신 환경에서 음성 부호화기의 성능 향상
서명 / 저자 Performance improvement of speech coder in adverse communication environments = 잡음이 있는 통신 환경에서 음성 부호화기의 성능 향상 / Mi-Suk Lee.
발행사항 [대전 : 한국과학기술원, 2001].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8012341

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 01011

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In last several years, there has been an explosion of research and development activity in the area of speech coding. The growth of applications such as mobile communications and voice storage systems has increased the need to conserve bandwidth in wireless, wire-line and satellite communications as well as to reduce memory requirements of voice storage systems. Since the bandwidth of a signal is a function of its bit-rate, high quality low bit-rate coders have been the major focus of current research in this field. Among the variants of speech coder schemes, the most widely reported scheme for operation below 8 kbps is code-excited linear predictive (CELP) coder. In those linear predictive coding (LPC) based speech coder, the accurate representation of LPC spectral envelope of speech signal is essential to high quality speech coder. Thus this work deals with the performance improvement of speech coder through an efficient modeling and quantization of spectral envelope in adverse communication environments. First, we propose a new LPC analysis method called interpolative LPC (ILPC) to improve the performance of spectral interpolation. In the conventional LPC analysis method, we first extract LPC parameters and then interpolate these parameters to prevent abrupt change of spectral envelope. However, the ILPC analysis jointly combines spectral analysis with interpolation. We derive the exact solution of the ILPC analysis on the basis of the minimum mean squared error criterion. Then, we construct a baseline system and evaluate the performance of the proposed algorithm in both clean and background noise environments. Experimental results show that the ILPC analysis provides higher spectral interpolation performance than conventional LPC analysis in terms of average spectral distortion and percentage of outlier frames. Second, we propose a new distortion measure for spectral quantization based on line spectral frequency (LSF) inter-model interlacing property. This inter-model interlacing property gives a new relationship between the closeness of LSFs and their spectral sensitivities, which motivates a new weighting function for LSF distortion measurement. The proposed weighting function is named formant bounded weighting (FBW) function because it uses the information about restricted formant regions. To evaluate the performance of FBW, we design split vector quantizer (SVQ) with dimensions of (3,3,4). By applying the FBW, we achieve a significantly better performance than that of the conventional heuristic weighting functions in both clean and background noise environments. In addition, the proposed weighting function gives better performance than the Gardner weighting function based on a high-rate approximation in the background noise environments while their performances are comparable in clean environment. Moreover, the complexity of the proposed weighting function is much lower than that of the Gardner weighting function. Third, we evaluate the performance of ILPC and FBW in ITU-T recommendation G.723.1 speech coder. We first replace the LPC analysis of the ITU-T Recommendation G.723.1 speech coder with ILPC analysis. As a result, the ILPC analysis method improves the perceptual speech quality measure (PSQM) performance under clean and adverse communication environments. Next, FBW is implemented in the spectral quantization module of the ITU-T recommendation G.723.1 and then we measure PSQM and perform a listening test under clean and background noise conditions. The experimental results show that the FBW improves speech quality of ITU-T recommendation G.723.1 speech coder in views of PSQM and mean opinion score (MOS). Finally, the performance of FBW is evaluated under various frame erasure environments by varying the frame erasure rate (FER) from 1 % to 10%. Compared to the conventional weighting functions, FBW also gives improved speech quality under every FER conditions.

지난 몇 년 동안 음성 부호화기에 대한 연구와 개발이 활발히 진행되어 왔다. 디지탈 이동통신, 음성 저장 시스템과 같은 응용분야의 성장과 더불어 음성 저장을 위한 메모리 및 유,무선 통신의 대역폭을 효율적으로 사용할 필요성이 증가하였다.음성 신호의 대역폭은 전송율에 의해 결정되므로 낮은 전송율로 고 품질의 음성을 재생할 수 있는 음성 부호화기에 대한 연구에 많은 관심이 모아지고 있다. 현재까지 여러 종류의 음성 부호화기가 제안되었고 또 표준으로 채택되어 사용되고 있는데, 그 중에서도 8 kbps 이하에서 동작하는 음성 부호화기로는 CELP 구조가 널리 사용되고 있다. 이러한 LPC 모델에 기반을 둔 음성 부호화기에서는 음성 신호의 스펙트럼 포락선을 정확히 표현하는 것이 고 품질의 재생음을 얻을 수 있는 필수 조건이다. 본 논문의 목적은 음성신호의 스펙트럼 포락선에 대한 효율적인 모델링과 양자화를 통하여 기존의 LPC 기반 음성 부호화기의 품질을 높이는데 있다. 첫 번째로, 스펙트럼 보간의 성능을 향상시키기 위해 새로운 LPC 분석방법인 interpolative LPC (ILPC)를 제안한다. 기존의 LPC 분석에서는 LPC 파라미터를 추출하고 난 후에 스펙트럼 포락선의 갑작스런 변화를 줄이기 위해 이들 파라미터를 이전 프레임의 LPC 파라미터와 보간하여 사용한다. 즉, LPC 분석과 보간이 각각 독립적으로 수행된다. 그러나, 본 논문에서 제안하고 있는 ILPC 분석에서는 LPC 분석에 보간특성을 반영한다. 먼저, 오차의 평균 자승이 최소가 되도록 ILPC에 대한 정확한 해법을 유도하였다. 이때 보간은 가장 널리 사용되고 있는 선형보간을 가정하였다. 그리고 제안된 알고리즘의 성능 평가를 위하여 간단한 시스템을 구성하고, 잡음이 없는 깨끗한 환경과 배경 잡음이 있는 환경에서 객관척도를 이용하여 성능을 평가하였다. 스펙트럼 왜곡을 측정한 결과, 모든 실험 환경에서 ILPC가 기존의 LPC 분석에 비해 우수한 스펙트럼 보간 성능을 보여주었다. 두 번째로, LSF의 inter-model interlacing 특성을 바탕으로 하여 스펙트럼 양자화를 위한 새로운 가중치 함수를 제안한다. 이 inter-model interlacing 특성은 인근한 LSF들의 거리와 스펙트럼 민감도 사이에 새로운 관계를 부여하는데, 이를 이용하여 새로운가중치 함수를 제안한다. 즉, 본 논문에서 제안한 가중치 함수는 제한된 포만트 영역에 대한 정보를 이용하기 때문에 formant bounded weighting (FBW)라 하였다. 본 논문에서 제안한 FBW의 성능을 평가하기 위해차원이 (3,3,4)인 SVQ를 설계하였다. 시뮬레이션 결과 FBW는 기존의 heuristic한 가중치 함수에 비해 깨끗한 환경이나 배경잡음이 있는 환경에서 좋은 성능을 보여주었다. 또한, FBW는 깨끗한 환경에서는 high-rate 근사화에 바탕을 둔 Gardner 가중치 함수와 비슷한 성능을 보이고, 배경 잡음이 있는 환경에서는 더 좋은 성능을 보여주었다. 게다가 FBW는 Gardner 가중치에 비해 계산량이 31%가 적다. 세 번째로, 본 논문에서 제안한 ILPC와 FBW를 ITU-T 권고안 G.723.1 음성 부호화기에 구현한 다음 성능을 살펴보았다. 먼저, ITU-T 권고안 G.723.1에 있는 LPC 분석 모듈을 본 논문에서 제안하는 ILPC로 교체한 후 스펙트럼 왜곡 측정과 PSQM 객관척도를 통하여 성능을 평가하였다. 실험 결과, 깨끗한 환경과 배경 잡음이 있는 환경에서 ILPC가 기존의 LPC 분석방법에 비해 좋은 성능을 나타내었다. 다음으로 FBW를 ITU-T 권고안 G.723.1의 스펙트럼 양자화 모듈에 구현한 후 객관척도와 주관척도를 통하여 성능을 측정하였다.실험 결과에 의하면 FBW가 ITU-T 권고안 G.723.1에서 사용하고 있는 가중치 함수인 MIHMW와 Gardner 가중치 함수에 비해 좋은 성능을 나타내었다. 청취 테스트에서도 스펙트럼 포락선을 양자화할 때 가중치 함수로 FBW를 사용할 때 가장 좋은 성능을 나타내었다. 또한 frame erasure 환경에서 제안한 알고리즘의 성능을 살펴보기 위해서 FER을 1%에서 10%까지 변화시켜 가면서 성능을 측정하였다. 이 경우에도 본 논문에서 제안하고 있는 ILPC와 FBW가 모든 FER 상황에서 기존의 알고리즘에 비해 더 좋은 성능을 나타내었다.

서지기타정보

서지기타정보
청구기호 {DEE 01011
형태사항 [v], 95 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이미숙
지도교수의 영문표기 : Hwang-Soo Lee
지도교수의 한글표기 : 이황수
수록잡지명 : "LPC analysis incorporating spectral interpolation for speech coding". Electronics letters, V.35 no.3, pp.200-201 (1999)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 88-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서