양방향 오디오 서비스를 위한 2단 다객체 오디오의 효율적인 잔차 신호 부호화 방법 = Efficient residual coding method of spatial audio object coding with two-step coding structure for interactive audio services
서명 / 저자 양방향 오디오 서비스를 위한 2단 다객체 오디오의 효율적인 잔차 신호 부호화 방법 = Efficient residual coding method of spatial audio object coding with two-step coding structure for interactive audio services / 이병화.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DICE 16006

휴대폰 전송







Presently, we generally enjoy music passively through broadcating or by playing some LD, CD or MP3 contents and the music contents are previously rendered by experts like a producer. But the audio channel environment has been rapidly changing from uni-directional to bi- or multi-directional ones and our desire for the music suitable to our preference has also been steadily increasing. In interactive audio services (IASs), users can render selected audio objects rather freely to match their desires. The IASs have not only the advantage of reflecting personal preference but also the disadvantage of the bitrate increase to transmit all the object signals for the control of the selected objects. The bitrate increase needed for IASs cannot be a negligible obstacle for the successful commercialization of the IASs especially in mobile environments. For IASs, the spatial audio object coding(SAOC) scheme is fairly good in the sense of bitrate and audio quality because the SAOC can encode various needed music objects into one down-mix signal with the additional side information including spatial parameters. But rather severe audio quality degradation of the SAOC usually occurs when a single object is suppressed or played alone. To complement this problem, the SAOC scheme with Two-Step Coding(SAOC-TSC) was proposed. But the bitrate of the side information used in SAOC-TSC increases 2 or 3 times than that of the original SAOC because of the bitrate needed for the residual coding to enhance the audio quality. In this thesis, an efficient residual coding method for the SAOC-TSC is proposed to reduce the side information bitrate. The residual coding of the SAOC-TSC adopts the effective bandwidth of the 0 ~ 5.5 kHz frequency regions and the fixed bitrate. The target object and the common down-mix signals don’t always exist both in time and effective bandwidth. Nevertheless, the SAOC-TSC scheme, which unconditionally performs the residual coding with fixed bitrate and the effective bandwidth, is inefficient because the residual coding is not necessary when one of the two signals does not exist. Therefore it becomes necessary to adjust the effective bandwidth in accordance with the characteristics of their frequency distribution. We propose the SAOC-TSC variable residual coding (SAOC-TSC(VRC)) scheme. The bitrate of the residual coding and the effective bandwidth in the scheme can be variably decided through an analysis of the target object and the normal down-mix signal. From the experimental results, we confirm that the proposed method can reduce the bitrate of the side information without any perceptible degradation of audio quality and increase in complexity.

지금까지 사람들은 음악 감상을 주로 프로듀서와 같은 전문가들이 오디오 믹싱 등의 작업을 통해 만든 음악을 단순히 볼륨 조절만을 통해 듣는 형태로 소비해 왔다. 그러나 양방향 네트워크가 발달하고 멀티채널 오디오 등과 같은 실감 음향에 대한 청취자의 욕구가 증대되고, 사용자 제작 콘텐츠(UGC; User Generated Contents) 서비스의 활성화 등과 더불어 개인의 취향에 따라 음악을 다양한 형태로 소비하고자 하는 욕구가 커짐에 따라 고품질 양방향 오디오 서비스 (IAS; Interactive Audio Service)에 대한 기대감은 무척 빠르게 증가하고 있다. 양방향 오디오 서비스는 개인의 취향에 따라 오디오 객체들을 자유롭게 제어하여 자신이 원하는 음악을 만들 수 있다는 장점이 있지만, 객체별 완벽한 제어를 위해선 모든 오디오 객체 신호가 전송되어야 하기 때문에 전송 비트율이 급격히 늘어난다는 단점이 있다. 앞에서 언급한 실감음향 및 사용자 취향에 맞춘 양방향 오디오 서비스에 대한 요구의 증가는 기존 모노, 스테레오 신호를 처리하던 오디오 부호화 연구가 다채널/다객체 오디오 신호 처리를 위한 연구로 바뀌게 되는 계기가 되었다. 자유로운 오디오 객체 제어를 위한 부호화 방법으로 적은 비트율로도 좋은 음질을 제공하는 부호화 방법이 공간 오디오 객체 부호화 (SAOC; Spatial Audio Object Coding) 방법이다. 공간 오디오 객체 부호화 방법은 다양한 오디오 객체를 하나의 다운믹스 신호와 공간정보 파라메타를 갖는 소량의 부가 정보로 표현 전송하는 방법이다. 많은 오디오 객체를 하나의 다운믹스 신호와 소량의 부가정보로 표현하기 때문에 비교적 높은 압축률, 즉, 상당한 비트율 감소가 가능하다. 또한 인간의 청각 특성을 반영한 공간 파라메타 정보를 이용해 오디오 객체를 복원하기 때문에 비교적 높은 압축률에도 불구하고 상당히 좋은 음질을 제공한다. 이렇듯 양방향 오디오 서비스 제공을 위해 적합한 부호화 방법인 공간 다객체 오디오 객체 부호화 방법은 모든 객체가 재생이 되는 일반적인 경우에는 큰 음질열화가 느껴지지 않지만, 보컬(vocal) 신호만 제거하고 사용자의 노래로 대체하고자 하는 가로오케나 특정 악기의 연주만을 듣고자 하는 솔로 서비스와 같이 특정 객체의 신호를 삭제하거나, 그 객체 신호만 홀로 재생하는 경우에는 음질 열화가 상대적으로 심하게 나타나는 문제점이 있다. 이러한 음질 열화 문제는 2단 공간 오디오 객체 부호화 (SAOC-TSC; Spatial Audio Object scheme with Two-Step coding) 방법으로 해결이 가능하다. 이 방법은 삭제되거나 재생되는 특정 객체인 타겟 신호와 타겟 신호를 제외한 나머지 일반 객체 신호를 잘 분리해 내기 위해 잔차신호 코딩 방법을 추가로 실시한다. 즉, 타겟 신호와 다른 일반 신호가 합쳐진 다운믹스 신호 간 잔차신호 코딩 수행을 통해 타겟 신호와 일반 다운믹스 신호를 보다 효과적으로 분리해 낼 수 있다. 다만, 그로 인한 추가 코딩으로 발생하는 공간 파라메타 정보인 채널 레벨 차 (CLD; Channel Level Difference) 값과 잔차신호(residual signal) 로 인해 부가정보 비트율이 2~3배 가량 증가하는 단점이 있다. 본 연구에서는 2단 공간 오디오 객체 부호화 방법에서 증가되는 부가정보 비트율 감소를 위해 효율적인 잔차신호 코딩방법을 제안한다. 기존의 2단 공간 오디오 객체 부호화 방법에서는 고정된 비트율로 잔차신호 코딩을 수행하는 데, 타겟 신호와 일반 다운믹스 신호가 유효 주파수 대역 내에서 동시에 존재하지 않을 수도 있고, 객체에 따라서 기존 설정해 놓은 유효 대역폭(0 ~5 .5 kHz)보다 낮은 대역폭에만 신호가 있을 수 있다. 따라서 이러한 이유로 기존 2단 공간 오디오 객체 부호화에서 처럼 잔차신호 코딩을 전체 유효 주파수 대역에 대해 항상 수행하는 것은 비효율적이다. 제안하는 효율적인 잔차 신호 코딩 방법은 타겟 신호와 일반 다운믹스 신호의 존재 유무를 채널 레벨 차이 값을 계산하여 확인하고 이를 바탕으로 유효 주파수 대역폭을 조절하여 잔차신호를 코딩함으로써 잔차 신호 코딩에 소요되는 비트율을 감소시키는 방법이다. 실험 결과를 통해 제안된 효율적인 잔차신호 코딩방법이 복잡도 증가 및 오디오 음질 저하 없이 잔차신호 코딩에 소요되는 비트율을 감소시킨다는 것을 확인할 수 있다.


청구기호 {DICE 16006
형태사항 viii, 92 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Byong Hwa Lee
지도교수의 한글표기 : 한민수
지도교수의 영문표기 : Min Soo Hahn
수록잡지명 : "Efficient Residual Coding Method of Spatial Audio Object Coding with Two-Step Coding Structure for Interactive audio Services". IEICE Transactions on Information and Systems, Vol.E99-D, No.7, 1949-1952(2016)
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 참고문헌 : p. 86-88





이 주제의 인기대출도서