This dissertation mainly concerns moving-object segmentation in DCT domain. Video segmentation, or moving-object segmentation, is essential for the content-based functionalities of recent digital signal processing applications. Since the current video coding standards adopt block-based compression, the proposed segmentation algorithm is block-based, and it uses the motion vector and DCT coefficients of the block for segmentation features. To overcome the demerit of block-based operation, the proposed segmentation algorithm introduces statistical hypothesis testing. The proposed algorithm is comprised of three techniques, such as moving-object segmentation in compressed bitstream, moving-object segmentation with static sprite in the video source coder, and moving-object segmentation with adaptive sprite. In the compressed bitstream, moving-objects can be segmented without decompression. In the video source coder, moving-objects are segmented in parallel with coding process without any previous segmentation information, where the proposed segmentation algorithm uses static sprite or adaptive sprite as a segmentation assistant. With the sprite coding, there are improvements in the coding efficiency as well as the segmentation accuracy. Though the proposed algorithm segments moving-object with block-resolution, it finds all blocks including pixel-resolution moving-object. Moreover, the proposed algorithm can reduce bitrate up to half of the conventional coding without the proposed segmentation depending on object. In addition, it’s video quality is the same as that of conventional coding. Since the proposed algorithm is an automatic segmentation, it is more useful in real-time applications than semi-automatic segmentation. The moving-object segmentation in compressed bitstream can be applied to video transcoding in communication networks and broadcasting channels. The moving-object segmentation in the video coder can be applied to surveillance and video conferencing systems.
이 논문은 이산여현변환(DCT) 영역에서 움직이는 물체의 분할 (동영상 분할) 에 관한 연구 내용을 정리하였다. 이 논문에서 연구한 동영상 분할은 다음과 같은 특징을 가진다. 첫째, 실시간 응용분야에서 사용할 수 있도록 자동 동영상 분할을 연구하였다. 반자동 동영상 분할은 사용자가 동영상 분할에 개입하므로 자동 동영상 분할보다 분할의 정확성을 높일 수 있는 장점이 있지만, 실시간 응용분야에서는 동영상 분할 과정에 사용자의 개입이 힘들어서 자동 동영상 분할이 더 적합하기 때문이다. 둘째, 압축된 비트스트림을 다룰 수 있도록 압축된 동영상에서의 동영상 분할을 연구하였다. 대부분의 동영상은 압축된 후 저장되거나 전송되는데 이 압축된 동영상을 다루기 위해서 기존의 동영상 분할 방법은 압축을 풀어야만 했지만, 압축을 풀지 않고 압축된 상태에서 동영상 분할을 할 수 있도록 하기 위함이다. 셋째, 현재의 동영상 압축 표준들이 모두 블록 기반의 압축을 하기 때문에, 블록 기반의 동영상 분할을 연구하였다. MPEG-4를 제외한 다른 동영상 압축 표준에는 동영상 분할의 개념이 없는데, 이 동영상 압축 표준에도 동영상 분할 개념을 적용할 수 있도록 하려면 기존의 압축 표준들이 모두 블록 기반의 압축을 하기 때문에 블록 기반의 동영상 분할을 해야만 하기 때문이다. 한편, 블록 기반의 압축에서는 블록의 움직임 벡터를 찾을 때, 실제의 움직임을 찾기 보다는 압축률을 높일 수 있도록 움직임 벡터를 찾는다. 그래서 움직임 벡터가 실제의 움직임이 아닐 수 있다. 게다가 실제 움직임이 없더라도 물체의 움직임으로 노출된 배경 조차 움직임 벡터를 가지게 된다. 이를 극복하기 위해 영역 개념을 도입했는데, 영역이란 비슷한 공간적 특성을 가지는 블록의 집합이다. 이때 공간적 특성은 DCT 계수를 네 개의 성분으로 나눈 후에 공간 특성 벡터를 구성해서 측정한다. 그리고, 한 영역 안에 공간적 특성이 비슷한 블록들을 앙상블이라 가정하고, 통계적인 방법을 이용해서 앙상블을 조사하면 움직임 벡터의 정보가 부정확 하더라도, 이 영역이 움직이는 물체인지 아니면 노출된 배경인지를 알 수가 있다. 결국 각각의 영역에 대한 판단을 조합함으로써 압축된 동영상에서 움직이는 물체를 분할 할 수 있는 것이다. 그리고, 이 논문은 위의 동영상 분할 알고리즘을 압축된 동영상과 동영상 부호화기에 적용한 결과를 함께 정리하였다.