As an attempt to achieve realistic image representation by segmentation, a morphological image segmentation scheme is proposed. The proposed scheme mainly aims to represent homogeneous visual objects with few regions while preserving semantic object shapes as faithfully as possible. This strategy is based on the fact that homogeneous visual objects occupy most parts of the entire image domain in a typical ''head and shoulder'' video sequence. For realistic or precise segmentation, a bottom-up approach has been reported to be more appropriate than a top-down method.
A bottom-up approach begins with initial image segmentation. Since, all subsequent processes strongly depend on initial segmentation, it should provide sufficient information for an image efficiently. Acquiring such initial segmentation, an efficient marker extraction algorithm is proposed. It first identifies candidate areas where effective markers can exist, and transition areas are excluded from marker extraction process. We regard them as marker clusters and propose a multi-valued marker extraction algorithm from marker clusters by the local histogram analysis in each marker cluster.
Then, we perform region classification by thresholding the morphological gradient image and refining the class perimeters by utilizing initial segmentation. An ordered and classified region-merging algorithm is suggested to reduce the number of regions within classes. This algorithm considers only regions having the same class identifier and provides self-extracted threshold values for region merging from the class area itself. At the end, we eliminate redundant small regions deliberately by considering their neighborhood. We take the size of a small region as the macroblock size in video compression standards, since it has been regarded large enough to estimate reliable features for a region.
Experimental results show that the resultant segmentation can be a well self-contained representation of an image. That is, it preserves most of perceptually important image components such that an artificial interpretation or analysis of an image can be possible only from the resultant segmentation without loss of semantic features. Thus, the proposed method is highly applicable to various fields that require an efficient and precise representation of an image. Applications such as medical imaging, industrial robots, remote sensing, military application, etc are expected.'
일반적인 디지털 영상은 사각형 격자구조를 가진 화소의 집합으로 주로 표현된다. 최근, 인간의 시각체계를 구현하려는 컴퓨터 비젼의 문제가 다양한 활동영역으로 확장됨에 따라서, 영상의 분석과 이해를 위해서 선, 영역, 객체 등과 같은 다차원 단위로 영상을 표현하려는 노력들이 시도되어 왔다. 본 논문에서는 영상에서 객체들이 가지는 실제적인 형태를 영역 단위로 최대한 보존하기 위해서, 형태론에 기반을 둔 영상분할 방법론을 제안한다. 제안한 방법은 상향식 구조 (bottom-up approach)를 채택하여, 균질한 특성을 가지는 객체를 정확한 형태를 유지함과 동시에, 최대한 단순하게 표현하는 것을 주된 목표로 삼는다.
상향식 구조에서는 초기영상분할 (initial image segmentation)을 중심으로, 후속 작업들이 수행되기 때문에, 정확하면서도 효율적인 초기영상분할이 요구된다. 본 논문에서는 이러한 조건을 가지는 초기영상분할을 위해서 마커군 (marker cluster)에 기반을 둔 마커 추출법을 제안한다. 마커군이란, 영상에서 합리적인 마커가 존재할 수 있는 예비영역을 지칭하며, 평탄 영역을 잇는 전이영역 등과 같은 불필요한 영역이 마커로 처리될 가능성이 최대한 배제된 영역으로서의 특징도 함께 가진다. 마커군 내에서는 국부적인 히스토그램 분석을 통해서, 여러 유사한 휘도치로 구성된 마커를 추출함으로써 원하는 특성을 가지는 초기영상분할이 가능하게 된다.
효과적인 영역병합을 위해서, 초기영상분할을 여러 부류 (class)로 구분한다. 분류는 형태론적 경사영상을 문턱치에 의해서 이진 분할한 후에, 각 부류가 가지는 화소 단위의 경계를 초기영상분할에서 얻어진 영역의 경계로 보완을 하는 과정으로 구성되어 있다. 이렇게 결정된 부류 내에서는 독립적으로 영역병합 과정이 수행되며, 병합에 필요한 여러 모수는 각 부류가 가지는 통계적 특성으로부터 자체적으로 추출된다. 병합과정에서는 영역이 가지는 분산치에 따라서 병합 순서를 결정한다.
영역병합 후에는, 다수의 소영역이 잡음처럼 존재하는데, 이들을 제거하기 위한 방법을 제안한다. 제안한 방법에서는 소영역의 주변에 위치한 유사한 휘도치를 가지는 인접영역의 수에 따라서, 서로 다른 조건에 따라서 소영역을 제거한다. 이때, 소영역으로 고려되는 영역은 일반적인 압축표준에서 매크로블록으로 정의된 영역보다 작은 영역으로 정의되며, 이는 다른 소영역 제거기법에서 고려되는 것보다 아주 크다는 차이점을 가지고 있다.
실험결과, 최종적인 영상분할 결과는 분할된 영역 정보 만으로도 영상에 대한 객관적인 이해가 가능할 정도로 의미객체 형태가 제대로 보존되었음을 알 수 있다. 특히, 단순배경 등과 같이 균질한 특성을 가지는 의미객체들은 1,2개의 극소수의 영역으로도 표현이 가능하다. 이는, 기존의 방법들이 움직임 정보까지 이용했음에도 만족스러운 결과를 얻지 못했음을 상기할 때, 제안한 방법이 보다 우수한 주관적 화질을 가진다는 것을 알려준다. 그러므로, 제안한 방법은 효율적이면서 정확한 영상표현을 필요로 하는 다양한 응용분야에 적합하다.