서지주요정보
A new VBR WI coder with CW modification for embedded applications = 특성파형 성분분리 방법 개선 및 새로운 가변 비트 기법을 적용한 임베디드 어플리케이션용 파형보간 코더
서명 / 저자 A new VBR WI coder with CW modification for embedded applications = 특성파형 성분분리 방법 개선 및 새로운 가변 비트 기법을 적용한 임베디드 어플리케이션용 파형보간 코더 / Hee-Sik Yang.
발행사항 [대전 : 한국정보통신대학교, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

DM0001054

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/DS08-03 2008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation presents a modified characteristic waveform (CW) decomposition method to enhance the speech quality of the wideband waveform interpolation (WI) coder and a new variable bit rate (VBR) coding technique to reduce the bit rate of the WI coder. In the original WI scheme, a CW is decomposed into a slowly evolving waveform (SEW) and a rapidly evolving waveform (REW) in Cartesian coordinates. This may deteriorate the spectral shape of the reconstructed CWs. Especially, speech quality degradation is inevitable when the REW contains SEW components. To solve this problem, the decomposition of a CW is performed on polar coordinates so that the spectral envelop information of the reconstructed CWs holds consistency even for the REW with voiced components. The proposed CW modification results in the PESQ (Perceptual Evaluation of Speech Quality) score improvement by 0.3 from the baseline speech quality, i.e., the PESQ score of 2.8. The variable bit rate scheme in the WI coder was already proposed by Plante. It takes the benefit of time varying property of speech signals. On the other hand, the target of our variable bit rate scheme is to utilize the slowly varying property of the signal. After the WI coder extracted all parameters, the distortions between the current and the predicted parameters are measured. The predicted parameters are acquired by the prediction based on the past parameters to be transmitted. A parameter would not be transmitted unless the distortion exceeds the preset threshold. At the decoder, the non-transmitted parameter is reconstructed by the same prediction method used for the encoder. In this way, we can reduce 41 percent of the total bit rate while retaining the speech quality degradation below 0.1 PESQ score. Recently, demands for the speech coders which can provide good speech quality even at very low bit rates are increasing. Especially, adequate speech coders for the embedded applications are highly demanded. The final version of our proposed wideband WI coder can operate at 3.7 kbps with 3.0 PESQ score. Compared with the 3.2 PESQ score of the most popular and compatible AMR-WB 6.6 kbps, our coder offers about 42 percent bit reduction without significant degradation in speech quality. Though another successful coder, i.e., the MELP coder, shows the PESQ score of 2.8 at the bit rate of 2.4 kbps, the MELP is based on the narrowband speech signal and it is well known that the speech quality of the wideband coder is much superior to that of the narrowband ones even when they have the same MOS. Therefore, the proposed coder can be applicable for the low bit rate applications. Especially, it can be adopted in the embedded applications which require rather good speech quality at very low bit rates.

본 연구에서는 광 대역 기반 파형보간 코더의 음질을 향상시키기 위해서 개선된 특성파형 성분 분리 방법을 제안하고, 비트율 감소를 위해서 새로운 가변 비트율 기법을 제안한다. 파형보간 기법에서 특성 파형은 직교 좌표계에서 SEW 성분과 REW 성분으로 성분 분해된다. 이는 REW 포락선 정보에 오류를 초래할 수 있으며. 특히, 불완전한 성분 분해로 인해 REW 파형이 많은 SEW 성분을 포함하고 있는 경우, 음질 열화는 피할 수 없다. 이 문제를 해결하기 위해 특성 파형의 성분 분해를 극 좌표계에서 수행하여 REW가 SEW성분을 포함하고 있더라도 포락선 정보가 열화 되지 않도록 하였다. 제안된 성분 분해 방법은 기준 시스템 PESQ 2.8로부터 0.3 향상된 결과를 보였다. 두 번째로 제안된 가변 비트율 기법은 음성 신호가 천천히 변화하는 특성을 이용하였다. 제안된 알고리즘은 파형보간 코더에서 파라미터를 추출한 후, 현재 추출된 파라미터와 예측된 파라미터 간 거리를 측정한다. 측정된 거리가 미리 정한 문턱 치를 넘으면 현재 파라미터를 전송하고 반대의 경우 파라미터는 전송하지 않는다. 전송되지 않은 파라미터는 부호화단과 동일하게 과거 파라미터로부터 예측한 파라미터를 이용하여 추정하게 된다. 이러한 방식으로 음질 저하는 PESQ 0.1 이하로 유지한 채, 전체 비트율 중 41 퍼센트를 감소 시킬 수 있다. 최근 낮은 비트율에서도 좋은 음질을 제공하는 음성 코더에 대한 요구들이 증대되고 있다. 특히, 임베디드 용 음성 코더들에 대한 수요가 크게 일어나고 있다. 제안된 광 대역 파형보간 코더는 4.1 kbps 비트율에서 PESQ 3.0의 음질을 제공한다. 이는 AMR-WB 6.6 kbps 광 대역 표준 음성 코더 대비 38 퍼센트 낮은 비트율이며 음질의 저하는 미미하다. MELP 코더와 비교하면 제안된 코더의 비트율은 크지만, MELP 코더는 협대역 음성에 기반한다. 동일한 MOS 음질에서도 광대역 기반 코더가 협 대역 기반 코더보다 실질적으로 좋은 음질을 가진다는 것을 감안하면 제안된 코더의 음질이 MELP보다 우수하다고 할 수 있을 것이다. 따라서 제안된 코더는 저 비트율 응용기기들에 적용할 수 있을 것으로 기대되며, 특히 임베디드 용 음성코더로서 사용될 수 있을 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {ICU/DS08-03 2008
형태사항 iv, 91 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 양희식
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(박사) - 한국정보통신대학교 : 공학부,
서지주기 References : p. 83-91
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서