서지주요정보
Quality improvement of G.718 SWB codec with normalized spectral envelope information-based spectral shape modification = 정규화된 Spectral Envelope 정보기반 Spectral Shape 개선을 통한 G.718 초광대역 부호화기 성능 개선
서명 / 저자 Quality improvement of G.718 SWB codec with normalized spectral envelope information-based spectral shape modification = 정규화된 Spectral Envelope 정보기반 Spectral Shape 개선을 통한 G.718 초광대역 부호화기 성능 개선 / Keunseok Cho.
저자명 Cho, Keunseok ; 조근석
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028040

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 15030

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

This dissertation concerns about the sound quality improvement of the G.718 super-wideband (SWB) codec. To achieve the goal, a new bandwidth extension (BWE) and a new speech/audio signal enhancement layer coding schemes are proposed with fairly meaningful performance evaluation results. As the first issue of this dissertation, a BWE method for the G.718 SWB codec is proposed using the cepstral envelope coding and duplication of quantized wideband (WB) signals by means of analysis-by-synthesis (AbS). In the G.718 SWB coder, generic mode coding and sinusoidal enhancement are used for the quantization of modified discrete cosine transform (MDCT)-based parameters in the high frequency band (HFB). In the generic mode, the HFB is divided into sub-bands and for every sub-band the most similar match with the selected similarity criteria is searched from the coded and envelope normalized WB content. In the proposed method, in order to improve the quantization scheme in high frequency region of speech/audio signals, HFB contents are generated by utilizing the quantized cepstral coefficients extracted from the envelope and the quantized MDCT shape of the WB signal. The basic procedure of the proposed algorithm is that MDCT coefficients of spectral envelopes are transformed into cepstral coefficients and then vector-quantized. Also, for spectral shapes, the duplication of quantized low frequency band (LFB) contents with quantized spectral envelopes in the HBF by AbS is proposed. The algorithm searches the best match of quantized LFB contents with original HFB contents. The proposed method is compared with the latest G.718B SWB codec and the experimental results show that the proposed method outperforms the baseline codec both in subjective listening tests and objective performance measures. In the second issue of this dissertation, proposed speech/audio signal enhancement layer coding schemes are dealt with. In the G.718 SWB, the Sinusoidal mode coding technique is utilized in the SWB en-hancement layers on top of both Generic mode and Sinusoidal mode frames. There are two enhancement layers, Layer 7mo (4 kbps) and Layer 8mo (8 kbps). The sinusoidal mode coding is only used after encoding in the BWE layer. However, the residual signals after encoding by the Generic mode coding are mostly non-tonal signals. It is efficient that non-tonal signals are encoded by the Generic mode coding than the sinusoidal mode coding. In the proposed algorithm in additional layer 7mo, an additional cepstrum-based vector quantization (VQ) codebook for residual signals is generated for the encoding of the spectral envelope. Also, for spectral shapes, the duplication method using both the quantized LFB content encoded by wideband coder and the quantized HBF content encoded by BWE coding with quantized spectral envelopes in the HBF by AbS is proposed. In addition, the search range is quadrupled include backward search range compared with the search range in the specral shape coding of the G.718 SWB. The performance evaluation results show that the proposed algorithm improves the sound quality significantly both in subjective listening tests and objective measures.

최근 음성 코덱 기술은 협대역에서 광대역, 그리고 초광대역 코덱으로 발전해 나가고 있다. 기존에는 유선전화망이나 이동통신망에서는 300 Hz - 3400 Hz의 대역폭을 갖는 협대역 코덱을 주로 사용해 왔지만 50 Hz - 7 kHz의 대역폭을 갖는 광대역 코덱과 50 Hz - 14 kH의 대역폭을 갖는 초광대역 코덱이 표준화가 되고 현재 광대역 코덱이 이동통신망에서 사용되는 추세이다. 광대역 코덱은 1988 년부터 표준화되기 시작하였지만, 협대역 특성을 가지고 있는 기존 전화망과의 인터페이스 때문에 널리 사용되지는 않다가, 네트워크 기술의 발전으로 좀 더 나은 통화품질이 요구되면서부터 음질이 우수한 광대역, 초광대역 코덱에 많은 관심이 모아지고 있다. 나아가 기술적으로 코덱간의 호환성 문제를 근원적으로 해결하고 음성서비스와 음악서비스를 대역폭 확장을 통해 동시에 제공할 수 있는 초광대역 음성기반 오디오 융합코덱 표준화가 이루어지고 있다. 임베디드 가변비트율 코덱기술을 대표하는 광대역 코덱인 G.718, G.729.1 코덱과 호환성을 제공하여 기존의 통신 시스템에 대한 영향을 최소로 하면서 초광대역 음성 및 오디오 품질을 필요로 하는 응용분야에 사용하기 위해 지난 2007 년부터 표준화가 이루어졌다. 현재 3GPP에서는 SA4 산하에 EVS (Enhanced Voice Service) 그룹을 구성하여 AMR-WB, AMR-WB+ 코덱에 후속하여 LTE 서비스를 위한 EVS의 표준화를 위해 기술적 요구사항을 도출하고 있으며 이는 기본적으로 음성정보와 오디오 대역(20 - 20,000 Hz)의 정보를 모두 처리할 수 있는 음성 오디오 융합코덱 형태의 기술개발과 표준화가 진행되어가고 있다. G.718B 초광대역 코덱에서는 저주파수 영역(0 - 7 kHz)과 고주파수 영역(7 - 14 kHz)을 신호 레벨에서 독립적으로 양자화를 수행한다. 저주파수 영역에서는 기존의 G.718 양자화가 그대로 사용되며 고주파수 영역에서는 신호의 특성(tonality detec-tion)에 따라서 양자화를 달리하고 있다. 고주파수 영역에서는 기본적으로 신호의 MDCT 변환이 이루어지며 검출된 신호의 특성, 즉, 토널 성분의 존재 여부에 따라서 generic mode coding 과 sinusoidal mode coding 기법이 병행되어 사용된다. 기존 G.718 코덱에서 지원되는 비트율은 8, 12, 16, 24, 32 kbps이다. ITU-T에서 표준화된 G.718 코덱은 8 - 32 kbps 범위 내에서 임베디드 형태로 비트열 계층을 쌓아가는 구조로 협대역 신호부터 광대역 신호를 압축, 복원한다. G.718B 초광대역 코덱은 G.718 코덱의 확장 코덱으로 기존 32 kbps에서 더해져, 36 kbps, 40 kbps, 48 kbps가 지원된다. AMR-WB로 널리 알려진 G.722.2 부호화기의 12.65 kbps 모드와 호환성을 제공하며, 구조는 비트율이 높아짐에 따라 비트를 쌓아 올리는 임베디드 가변 비트율 부호화 기술로 이루어져 있다. G.718B 초광대역 코덱으로 확장될 때, 레이어 구조를 형성한다. 각 레이어 마다 다른 기술이 사용되어 있는데, 특히 초광대역으로 확장된 첫 번째 레이어인 Layer 6mo에서는 Generic mode 혹은 sinusoidal mode가 사용된다. G.718 광대역 코덱에서 16 kHz 신호가 다운샘플링 되어 수행되어지고, 초광대역 확장 레이어에서는 32 kHz 신호가 입력으로 사용된다. 초광대역 인코더에서 먼저 입력 신호를 MDCT 도메인으로 변환하고, 변환된 MDCT를 가지고 토널 성분을 측정하게 된다. 토널 성분을 측정하여 토널이 존재하면 sinusoidal mode로 들어가서 코딩이 수행되고, 토널이 존재하지 않으면 generic mode로 들어가서 코딩이 수행된다. 이는 전체 초광대역 확장 코덱에서 첫번째 레이어에서 수행이 이루어진다. 그 이후 레이어에서는 추가적인 sinusoidal mode를 통해 sinusoidal coding을 통해 원음에 가깝게 코딩과 양자화가 수행되어 비트율에 따라 음질이 향상된다. 본 논문에서 첫 번째 연구 주제로써 Cepstral envelope coding과 기존의 양자화된 광대역 신호를 AbS 방식을 통해 복사해 오는 방법을 이용하여 개선된 G.718B 초광대역 코덱의 밴드 확장 방법을 제안하였다. 기존의 G.718B 초광대역 코덱의 Generic mode coding에서 고주파수 대역을 부호화하기 위하여 4개의 밴드로 분할하여 광대역 코덱 (32 kbps)으로 부호화된 정규화된 저주파수 대역의 신호 (50 Hz ~ 7 kHz) 와 가장 상호상관관계가 큰 부분의 인덱스 정보를 가져오게 된다. 또한 이득 정보는 MDCT 도메인에서 로그도메인과 선형도메인 두 가지로 전역 이득을 전송하기 때문에 서브밴드 사이의 에너지 변화 (fluctuation of MDCT spectral envelopes) 를 효과적으로 나타내지 못하는 문제점이 발생한다. 따라서, 기존 방식에서는 프레임 내의 에너지 변화를 나타내기 어려운 단점과 복호화기 측면에서의 신호 합성을 고려하지 않는 단점이 있다. 이런 문제점을 해결하고 복호화 된 음질을 개선하기 위하여 토널 성분이 없을 때 사용되는 generic mode coding 방법을 개선하였다. 고주파수의 MDCT를 균일하게 서브 밴드로 나눠 서브 밴드의 스펙트럼 궤적을 효율적 비트 할당을 위해 서브밴드 에너지를 cepstrum으로 변환하여 인지적 특성 및 실험적으로 캡스트럼 계수를 서브 벡터로 분할 하여 양자화를 수행하여 코드북을 생성 하고 코드북에서 가장 유사한 코드워드 벡터를 찾는 방식으로 할당 비트를 줄이면서 음질을 높이는 방법을 사용하였다. 또한, 양자화 및 부호화를 통해 얻은 정규화된 spectral envelope 정보를 기반으로 부호화 과정에서 부호화 된 광대역 (저주파) 신호를 정규화 한 후 부호화기에서 부호화 단에서 미리 합성을 하여 입력된 고주파 신호와 상호상관관계가 가장 큰, 즉 가장 원음과 유사한 신호 정보를 부호화 하는 방법을 제안하였다. 제안된 방식을 적용하여 실험한 결과, 기존의 generic mode 보다 객관적, 주관적 결과에서 모두 향상된 결과를 얻을 수가 있었다. 제안된 방법 중에 이득을 필터뱅크 기반의 MDCT 이득보정, 즉, 켑스트럼 벡터 양자화를 통해 스펙트럼 궤적을 양자화 하여 전송하는 방법은 generic mode coding 뿐만 아니라, 다른 양자화 방식인 Algebraic Vector Quantization(AVQ)나 Factorial Pulse Coding(FPC)에서도 전체 이득을 대체하여 더 나은 결과를 얻을 수 있을 것이라고 판단된다. 본 논문의 두 번째 파트로써, 밴드 확장 이후 추가적인 레이어인 음성/음향 신호 개선 레이어 코딩방식 성능을 향상시키는 알고리즘을 제안하였다. G.718B 초광대역 코덱에서는 36 kbps에서 밴드 확장이 이루어 지고 그 이후 40 kbps와 48 kbps에서는 모두 Sinusoidal mode coding만 이루어진다. 그러나 원 신호와36 kbps에서 부호화 및 복호화 된 음성의 차인 잔차 신호의 토널 성분을 측정해보면 대부분의 경우 토널이 존재 하지 않는 것으로 판별된다. 실제 대용량의 DB를 사용하여 잔차 신호의 tonality를 측정한 결과 음성은 99.9%, 음악은 90.7% 정도가 토널 성분이 존재하지 않는 결과를 보이기 때문에 기존의 sinusoidal mode coding 방식으로 만의 부호화 방식은 비효율적이다. 토널이 존재하지 않을 때에는 Sinusoidal mode coding 보다는 Generic mode coding 방식이 더 효과적이다. 따라서, 첫번째 파트에서 제안한 방식을 수정한 modified generic mode coding 방식을 도입하였고, 토널 측정에 따라 기존의 sinusoidal mode coding 방식과 선택 가능하도록 하였다. 7mo 레이어 코딩방식으로 제안한 알고리즘으로는 잔차 신호의 spectrum envelope을 부호화 하기 위해 추가적인 cepstrum 기반의 벡터 양자화 코드북을 생성하였다. 잔차 신호이기 때문에 spectral envelope 부호화에서 첫번째 파트의 알고리즘에 비해 더 적은 비트를 할당하고 남은 비트를 spectral shape 부호화에 할당하였다. 또한, 잔차 신호에 대해 부호화 할 때 Spectral shape 부호화가 중요하므로 기존의 부호화된 광대역 신호뿐만 아니라 6mo 레이어를 통해 제안한 알고리즘으로 생성한 고주파수 대역의 정규화 된 신호를 이용하여 신호를 복사해 올 수 있도록 하였다. 검색 범위를 넓힌 것 뿐만 아니라 좀 더 정확한 spectral shape을 부호화 하기 위하여 저주파에서 고주파의 반대 방향으로도 검색할 수 있게 하였다. 비트가 한정 된 상황에서 잔차 신호의 경우 spectral envelope이 크지 않고 변화도 적으므로 비트를 적게 할당하고 잔차 신호는 노이즈와 같은 경향을 보이므로 spectral shape에 많은 비트를 할당하도록 하였다. 밴드 확장 방식과 동일하게 부호화 및 정규화 된 spectral envelope을 이용하여 AbS방식으로 합성하여 고주파의 잔차 신호와 가장 큰 상호상관 관계를 갖는 인덱스를 찾아 전송하게 된다. 제안 방식의 성능을 평가 하기 위하여 객관적 평가 방식인 BSD, PEAQ 와 주관적 평가 방식인 MUSHRA test 를 수행하였고, 모든 평가 방식에서 제안한 방식의 결과가 우수함을 확인 하였다. 추가적인 계산량이 증가하였으나, 음질 개선 면에 비해 미비한 정도로 확인되었다.

서지기타정보

서지기타정보
청구기호 {DEE 15030
형태사항 ix, 96 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조근석
지도교수의 영문표기 : Min Soo Hahn
지도교수의 한글표기 : 한민수
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p.
주제 AbS
BWE
cepstral coefficients
Generic mode
G.718B
SWB
합성에의한분석방식
밴드확장
캡스트럼 계수
제네릭 모드
G.718 초광대역코덱
초광대역
QR CODE qr code