The first issue of this thesis, new spatial audio coding schemes are proposed as a multichannel audio coding scheme. The SAC is a process to represent multichannel audio signals as down-mixed signal with spatial cues. Recently, binaural cue coding (BCC) has been introduced and becomes an important scheme for spatial audio coding. The inter-channel level difference (ICLD) as one of spatial cues of the BCC plays a pivotal role to remove a lot of redundant information. The accuracy of the ICLD, however, can be easily distorted by a quantization process. Instead of the ICLD, a new representation method of ICLD is proposed and it dramatically overcomes the quantization distortion. Another proposed scheme, global vector split based virtual source location information is newly presented as a SAC scheme. The GS-VSLI is analyzed on the semicircle plane and represented as angles. Spectral distortion measurement is conducted to confirm the usefulness of the GS-VSLI.
As the second issue of the thesis, audio source separation techniques are dealt with. The object-based audio rendering is a method in order to make an auditory scene automatically. The core technique to realize object based audio processing is a blind source separation which makes multitude audio separated into object audio. For the robustness of our algorithm, the frequency-domain block-based multichannel blind deconvolution (MBD) with a normalization matrix is proposed. The normalization is designed to overcome the intrinsic problems of the time-domain MBD such as the whitening effect and the slow convergence. The experimental results confirm that the proposed MBD algorithm is superior to the previous works.
본 논문에서는 다채널 오디오 처리 기술로써 공간 오디오 코딩 기술과 오디오 음원 분리 기술을 다루었다. 최근 들어 보다 향상된 멀티미디어 서비스를 위하여 다채널 오디오 처리 기술이 새롭게 요구되고 있다. 여기서 다채널 오디오는 기존의 오디오 코더를 이용하여 부호화 및 전송 시, 상당한 대역폭을 필요로 함으로 이를 표현하는 방법에 있어서 새로운 전략의 오디오 부호화 기술이 요구된다. 공간 오디오 코딩 기술 ( SAC: Spatial Audio Coding)은 바로 다채널 오디오 부호화 과정에서 보다 적은 대역폭으로 그 음질의 열화 없이 표현 할 수 있는 수단이다. SAC에서 기본적으로 사용하는 파라메터로써 채널 레벨 차 (ICLD: Inter-Channel Level Difference)가 있다. 그러나 ICLD 또한, 이를 전송하기 위한 양자화, 부호화 과정이 필요하며, 이때 많은 정보를 손실한다. 이는 ICLD를 양자화 하기 위한 비트 할당이 한정되어 있기 때문이다. 이러한 문제점을 개선시키기 위하여 본 논문에서는, 반 영역 ICLD (H-ICLD: Half region ICLD) 파라메터가 새롭게 제안되었다. H-ICLD는 그 부호화 정보량이 다소 크나, 양자화에 대한 열화 정도는 크게 줄일 수 있었다. 또 하나의 개선방법으로, ICLD를 대신하여 음상정보 기반 (VSLI: Virtual Source Location Information) SAC 전략이 새롭게 소개되었다. 기존의 VSLI 전략은 기존의 ICLD기반의 SAC 코더와 비교하여 성능 차이가 다소 미미 하였다. 이를 보다 향상시키기 위한 수단으로 전 방향 음상정보를 근거하여 음상정보 분석을 달리하는 VSLI (GS-VSLI: Global vector Split based VSLI) SAC 코더를 제안하였다. GS-VSLI 전략은 기존의 VSLI 전략과는 달리, 그 부가정보의 정보량을 크게 줄일 수 있었으며 양자화에 대한 열화 정도도 탁월하게 개선시킬 수 있었다.
본 논문에서 다룬 또 하나의 다채널 오디오 처리 기술로써, 오디오 음원분리기술을 소개하였다. 이는 실제환경에서 다채널 마이크로부터 녹취된 신호를 각객체기반으로 분리함으로써 오디오 신호에서도 자유로운 랜더링 작업이 가능있도록 한다. 기존의 음원분리 기술로 가장 각광받고 있는 기술은 BSS 알고리즘 이다. 그러나 BSS는 아직까지 음향신호를 분리하는데 있어서, 백색화로 인한 음질 열화와 분리되지 못한 잔향신호로 인한 성능저하를 보이고 있다. 본논문에서는 주파수 영역에서 블록 처리 기반의 MBD (NFB-MBD: Normalized Frequency domain Block-based Multi-channel Blind Deconvolution) 알고리즘을 새롭게 제안 하였다. 이는 시간영역에서 해석되는 MBD (TD-MBD: Time Domain MBD) 알고리즘의 성능을 개선 시키고자, 주파수 영역 블록 단위 알고리즘으로 유도되었으며 그 결과 보다 성공적으로 음향신호를 분리할 수 있었다 또한 정규화 메트릭스를 통하여 음향신호의 백색화 과정을 억제할 수 있었으며 그 분리 신호의 음질 저하 또한 억제할 수 있었다.
향후 연구로서, SAC에서 아직까지 완벽하게 재연하지 못하는 음장 효과나 음상 정위 방법을 후처리 과정을 통하여 재현 할 수 있도록 해야겠다. 또한 제안한 MBD 알고리즘이 기존의 방법의 성능향상을 달성했을 지라도, 아직까지 제거되지 못하고 남아 있는 잔향 신호들로 인하여 음질의 열화를 초래할 수 있다. 이들을 효과적으로 제거하기 위하여 룸 전달함수와 같은 사전정보를 이용한 음향 분리 방법도 개발되어야 할 것이다.