서지주요정보
SAC/SAOC audio quality improvement with new quantization scheme and two-stage process = 새로운 양자화 기법 및 2단 처리를 통한 다채널/다객체 오디오 음질 향상에 관한 연구
서명 / 저자 SAC/SAOC audio quality improvement with new quantization scheme and two-stage process = 새로운 양자화 기법 및 2단 처리를 통한 다채널/다객체 오디오 음질 향상에 관한 연구 / Kwang-Ki Kim.
저자명 Kim, Kwang-Ki ; 김광기
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022998

소장위치/청구기호

학술문화관(문화관) 보존서고

DICE 11014

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

As the first issue of this dissertation, efficient methods to handle the spatial cues are proposed to enhance the current multi-channel audio coding based on the spatial cue with respect to the performance and the functionality. The spatial cues such as channel level difference (CLD) and inter-channel correlation (ICC) originate from human perception to sound image in free-field. These cues have been widely used in various multi-channel audio coding such as Binaural Cue Coding and MPEG Surround. Since the spatial cues are determining factors for the coding efficiency and the sound quality in such coding schemes, the spatial cues should be carefully handled. As a method to enhance the quantization of the spatial cue, the virtual source location information (VSLI) based CLD quantization scheme is proposed. Since the VSLI can be directly converted into the CLD and has strength in the quantization process, the CLD quantization levels can be replaced by those of the VSLI and the CLD quantization errors can be greatly reduced. Apart from the coding efficiency and the sound quality determined by the spatial cues, there are many merits able to create valuable functionality through the usage of the spatial cues. Since the spatial image of the multi-channel audio signals can be preserved by the spatial cues, we can control the sound scene by the modification of the spatial cues. In order to add the functionality to the multi-channel audio coding scheme based on the spatial cues, we propose a new sound scene control method by the modification of the spatial cues. Using the proposed sound scene control method, the sound scene of the multi-channel audio signals can be freely changed without any degradation of the sound quality and large increase of the complexity. Experimental results show that the proposed schemes have good performance with respect to both the objective and the subjective measures. As the second issue of this dissertation, spatial audio object coding (SAOC) schemes are dealt with. As users’ demands on the advanced and alternative audio service, i.e. interactive audio service (IAS) increase, not a fixed audio signal made by a service provider but audio objects itself should be delivered to users. Since the bit-rate greatly increases if each audio object is separately handled, a new audio coding scheme is needed. For this reason, the SAOC is introduced. The IAS can be rather successfully supported by the SAOC with respect to the bit-rate and the sound quality, but the precise control of a particular audio object that is possible in the IAS can-not be supported by the SAOC. As a solution to the SAOC problem that it cannot precisely control the specific audio object, a two-step coding structure is proposed. If there is a target object for the precise control, then the normal audio objects except the target object are coded by the current SAOC scheme and the target object is handled by an alternative SAOC scheme. A residual coding is used as the alternative SAOC scheme in order to guarantee the high sound quality. Although a conventional coder such as advanced audio coding can be used as the residual coding, we implement a new residual coder based on transform coded excitation coding. It is be-cause the conventional coder causes another coding delay and it has a different time to frequency transformation. Finally, the IAS can be supported by the enhanced two-step coding structure SAOC, while saving the bit-rate and maintaining the reasonable sound quality. Meanwhile, the SAOC has backward compatibility that the down-mix signal is directly played by the existing playback system if there is no SAOC coder or the users want to listen to the down-mix signal. In that sense, a mastering signal can be used as the down-mix signal because the mastering signal is a modified version of the down-mix signal and it has CD-like sound quality. However, if the mastering signal is used for providing CD-like sound quality instead of the down-mix signal, an output signal decoded with the mastering signal may be easily degraded due to the difference between the down-mix and the mastering signals. To successfully use the mastering signal in the SAOC, the difference between two signals should be eliminated. As a simple compensation method, a mastering signal processing using a mastering down-mix gain (MDG) which is similar to the arbitrary down-mix gain (ADG) of MPEG Surround is proposed. Also, an enhanced mastering signal processing using the MDG bias is proposed to reduce quantization errors of the MDG. From the experimental results, it is confirmed that the proposed two-step structure SAOC can fully support the IAS in the aspects of the sound quality and the bit-rate. Also, it is observed that the mastering signal can be successfully used as the down-mix signal in the SAOC by the proposed mastering signal processing.

다양한 멀티미디어 매체의 증가와 사용자의 보다 향상된 오디오 서비스에 대한 요구는 오디오 부호화 연구의 초점이 기존의 모노 혹은 스테레오 오디오 신호를 처리하는 기술로부터 다채널 오디오 신호를 효과적으로 부호화하는 기술로 넘어가게 된 결정적 이유가 되었다. 이는 기존의 오디오 부호화 기술을 이용하여 다채널 오디오 신호를 처리하였을 경우, 고음질을 보장할 수 있지만 소모되는 비트율이 오디오 채널 수에 따라 급격히 증가하는 문제를 지니고 있기 때문이다. 이러한 문제를 해결하기 위하여 제안된 기술이 공간상의 음원의 위치를 나타내는 공간 큐 기반의 다채널 오디오 부호화이다. 이는 다채널 오디오 신호를 하나의 다운믹싱된 신호와 공간 큐로써 표현하는 기술로써 다채널 오디오 신호에 의해서 형성되는 공간 상의 이미지를 공간 큐를 이용하여 성공적으로 표현함으로써 음질과 비트율 측면 모두에서 효율적인 기술이다. 다채널 오디오 부호화 기술의 기반이 되는 공간 큐는 공간상의 음원 위치에 대한 인간의 인지에 기여하는 다양한 인자로부터 파생되었다. 대표적인 공간 큐로써 채널간 크기 차 (ICLD: inter-channel level difference), 채널간 시간 차 (ICTD: inter-channel time difference), 채널간 상관도 (ICC: inter-channel coherence)가 있다. 이러한 공간 큐는 Binaural Cue Coding (BCC)와 MPEG Surround 같은 대표적인 다채널 오디오 부호화기에서 주요 파라미터로써 사용되고 있으며, 다채널 오디오 부호화기의 성능을 결정짓는 주요한 인자이다. 본 논문에서는 대표적인 다채널 오디오 부호화기 중 MPEG Surround에서 공간 큐를 효율적으로 처리하는 방법과 공간 큐를 활용하여 다채널 오디오 부호화기에서 오디오 이미지를 자유롭게 제어하는 방법에 대하여 제안하였다. 대표적인 다채널 오디오 부호화기인 MPEG Surround는 공간 큐로써 채널간 크기 차 (CLD: channel level difference)와 ICC를 사용한다. 이중 CLD는 다채널 오디오 신호의 파워 정보를 나타내며 복원되는 다채널 오디오 신호의 음질을 결정하는 주요한 파라미터이다. CLD는 부호화 과정에서 전송을 위하여 양자화 과정을 거치기 때문에 양자화 오차를 피할 수 없으며, 이러한 CLD 양자화 오차로 인해 복원되는 다채널 오디오 신호의 음질 열화 또한 피할 수 없다. 따라서 복원되는 다채널 오디오 신호의 음질 열화를 최소화 하기 위해서는 CLD 양자화 오차를 최소화 해야 되며, 이를 위하여 본 논문에서는 가상 음원 위치 정보 (VSLI: virtual source location information) 기반의 CLD 양자화 방법을 제안하였다. 공간 큐의 주요한 역할이 다채널 오디오 신호에 의해서 생성되는 공간 상의 오디오 이미지를 표현하는 것이기 때문에 오디오 이미지의 위치 정보를 나타내는 VSLI를 CLD 양자화 방법에 적용함으로써 CLD 양자화 오차를 최소화하였다. CLD 양자화 방법과 더불어 본 논문에서는 다채널 오디오 신호의 이미지를 자유롭게 제어하는 공간 큐를 활용한 SSC (sound scene control) 방법을 제안하였다. 다채널 오디오 부호화기에서 오디오 신호의 이미지는 공간 큐에 의해서 표현되므로 공간 큐를 조절하면 오디오 신호의 이미지를 자유롭게 제어할 수 있다. SSC 방법은 오직 공간 큐의 조절만으로 오디오 신호를 제어할 수 있기 때문에 큰 복잡도의 증가 없이 다채널 오디오 부호화기에 오디오 신호의 이미지 조절 기능을 추가한다는 장점을 지닌다. 청취 평가 결과로부터 제안된 SSC 방법은 음질의 열화 없이 성공적으로 오디오 신호의 이미지를 제어할 수 있음을 확인하였다. 본 논문에서 다룬 또 하나의 연구 주제는 사용자 친화적인 오디오 서비스 (IAS: interactive audio service)를 위한 다객체 오디오 부호화 기술이다. 기존의 오디오 서비스는 제작자에 의해 생성된 오디오 신호를 사용자가 듣는 수동적인 서비스인 반면 Personalized Audio Service (PAS)나 MUSIC2.0과 같은 IAS는 보컬, 기타, 베이스, 피아노 등과 같은 각각의 오디오 객체를 사용자에게 전달하여 사용자가 자유롭게 원하는 오디오 신호를 생성하여 들을 수 있는 능동적인 서비스이다. 이러한 IAS는 각각의 오디오 객체를 개별적으로 부호화 하여 전송하기 때문에 비트율이 객체 수에 비례하여 매우 커진다는 단점을 지니고 있다. 이러한 문제를 해결하기 위하여 공간 큐 기반의 다객체 오디오 부호화 방법인 Spatial Audio Object Coding (SAOC)이 사용될 수 있다. SAOC는 공간 큐 기반의 다채널 오디오 부호화 방법으로부터 파생되었으며 사용자에게 interactivity를 제공하기 때문에 낮은 비트율을 가지고 IAS를 구현할 수 있다는 장점을 지닌다. 그러나 현재의 SAOC는 각각의 객체를 완벽하게 복원하는 것은 불가능하기 때문에 복원된 객체를 이용하여 사용자가 원하는 신호를 생성하였을 때 음질의 열화가 발생하는 것을 피할 수는 없다. 이러한 음질 열화는 여러 객체 신호를 동시에 믹싱하여 출력 신호를 생성하였을 경우에는 미미하지만 보컬신호와 같은 특정 객체를 완벽히 제어하는 가라오케와 같은 경우에는 출력신호에 특정 객체 신호가 남아있기 때문에 음질 열화가 매우 크다는 문제점을 지닌다. 본 논문에서는 이러한 문제점을 해결하기 위하여 2단 부호화 구조를 지니는 SAOC를 제안하였다. 제안된 SAOC 방법은 오디오 객체들을 일반적인 객체 신호와 완벽한 제어를 필요로 하는 특정 객체 신호로 구분하여 처리하며, 일반적인 객체 신호는 기존의 SAOC 방법 그대로 처리하고 특정 객체 신호는 완벽한 제어에 초점을 맞추는 변형된 SAOC 방법을 이용하여 효과적으로 처리하도록 하였다. 본 논문에서는 변형된 SAOC 방법으로써 기존의 파라메트릭 오디오 부호화에서 널리 사용되는 residual coding을 이용하였으며, transform coded excitation (TCX) 기반의 residual coding 방법을 구현하여 사용하였다. 제안된 SAOC 방법을 이용함으로써 오디오 객체신호는 다운믹스 신호의 부호화에 필요한 128 kbps와 채널당 약 1.7 kbps의 비트율로 표현이 가능하였으며, 특정 객체 신호가 있을 경우 residual coding을 위한 채널 당 약 15 kbps의 추가적인 비트율을 소모하여 표현이 가능하였다. 주관적인 음질 평가결과는 제안된 SAOC 방법을 이용하여 일반적인 오디오 객체신호와 특정 객체신호를 모두 효과적으로 부호화 할 수 있음을 보여주었으며, 특히 일반적인 SAOC 방법에서 제어가 불가능했던 특정 객체 신호도 제안된 SAOC 방법에서는 큰 음질 열화 없이 효과적으로 제어할 수 있음을 보여주었다. 마지막으로 본 논문에서는 다객체 오디오 부호화기의 역호환성 (backward compatibility)을 보완하는 마스터링(mastering) 신호처리 방법을 제안하였다. 다객체 오디오 부호화기의 역호환성은 다객체 오디오 복호화 과정이 불가능 하거나 복호화 과정을 필요로 하지 않을 경우 전송된 다운믹스 신호를 기존의 재생 시스템을 이용하여 그대로 재생하는 것을 의미한다. 한편 일반적인 오디오 CD는 작곡자의 의도에 따라 녹음된 각각의 객체 신호를 적절히 믹싱하는 과정을 거친 후 최종적으로 음질을 보완하는 마스터링 과정을 통해서 생성된다. 이러한 오디오 CD 제작과정에서 믹싱 과정을 거쳐 생성되는 신호는 다객체 부호화기의 다운믹스 신호와 같다고 볼 수 있으며, 다객체 오디오 부호화기의 역호환성을 고려하였을 경우 다운믹스 신호 대신에 마스터링 신호를 사용함으로써 사용자에게 CD 음질을 제공할 수 있게 된다. 그러나 마스터링 신호를 다운믹스 신호 대신에 사용하면 일반적인 다객체 오디오 복호화 과정을 거쳤을 경우 다운믹스 신호와 마스터링 신호가 서로 다르기 때문에 의도했던 출력신호를 얻을 수 없다는 문제를 지닌다. 즉 다객체 오디오 부호화기의 역호환성을 보완하기 위하여 사용하는 마스터링 신호가 다객체 오디오 부호화의 근본적인 성능을 저하시키게 된다. 이러한 문제를 해결하기 위하여 제안된 방법이 마스터링 다운믹스 이득 (MDG: mastering down-mix gain)을 이용한 마스터링 신호처리 기술이다. 제안된 마스터링 신호처리 방법은 다운믹스 신호와 마스터링 다운믹스 신호간의 크기 차이를 MDG 파라미터로 나타내며, 복호화단에서 MDG를 이용하여 마스터링 신호를 다운믹스 신호와 유사하게 보정함으로써 다객체 오디오 부호화기의 성능 저하를 최소화 하는 방법이다. 청취 평가를 통해 제안된 마스터링 신호처리 방법은 다객체 오디오 부호화기에서 마스터링 신호를 다운믹스 신호 대신 성능저하 없이 사용할 수 있음을 확인 하였다.

서지기타정보

서지기타정보
청구기호 {DICE 11014
형태사항 x, 95 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김광기
지도교수의 영문표기 : Min-Soo Hahn
지도교수의 한글표기 : 한민수
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p.81-84
주제 Spatial Cue
BCC
MPEG Surround
SAOC
CLD
공간큐
공간부호화
엠펙써라운드
다객체부호화
채널신호차
QR CODE qr code