In this thesis, we propose a Markov Random Field based approach as a unified and systematic way for modeling, encoding and applying scene knowledge to the image understanding problem. Generally the goal of the image understanding is achieved by two major processes; image segmentation and interpretation. So far most image understanding systems have adopted the knowledge-based approach inference component of which is typically rule-based, and they still follow a hypothesize-and-test paradigm. In those systems the interpretation and segmentation processes are separated and their incorporation is achieved through intermediate form of results such as hypotheses and evidences. And there is not usually mentioned about the explicit procedure for adjusting mis-labels when the evidences or judgements are wrong. Instead, the region analysis had to be propagated from the regions with established judgement to the nearby regions in similar fashion with region growing technique.
Thus in our approach we formulate the image segmentation and interpretation problem as a unified way and solve it through a general optimization algorithm. That is, in the proposed scheme, the image is first segmented into a set of disjoint regions by traditional region-based segmentation technique which operates on image pixels. Our scheme then proceeds on the initial set of segmented regions by defining the image segmentation and interpretation problem based on the MRF models. In the MRF model we specify the a priori knowledge about the optimal segmentation and interpretation in the form of clique functions and those clique functions are incorporated into a unified energy function to be minimized by optimization.
More specifically, for the case of image segmentation, the clique functions encode the constraints that a single segmented region should be uniform in spectral features and there should exist salient discontinuities on the common boundary between adjacent regions. And also for the case of image interpretation, unary constraints on the objects' properties and binary constraints between objects are also encoded into the energy function via corresponding clique functions. The optimal segmentation and interpretation results are then achieved by finding a labeling configuration that minimizes the given energy function through optimization techniques. But, in image interpretation, it is difficult to find appropriate values of the clique functions since the real scenes are variable from image to image. So we implement the clique functions as error-backpropagation networks so that it can be learned from sample training examples.
In the proposed scheme, the image segmentation and interpretation processes cooperate in the simultaneous optimization process such that the erroneous segmentation and mis-interpretation due to incomplete knowledge about each problem domain can be compensately recovered by continuous estimation of the given unified energy function. We exploit the proposed scheme to segment and interpret images natural outdoor scene images.
본 논문에서는 영상이해를 위한 필수적 두 과정인 영상분할과 인식의 문제를 보다 체계적이고 단일화된 방법으로 실현하기 위하여 마코프 랜덤 필드 모델을 이용한 새로운 통합 패러다임을 제시하였다. 제안된 방법에서는 영상분할및 인식의 두 문제를 입력된 영상의 초기분할된 영역의 집합위에서 정의하고, 이로부터 각각의 문제에 대한 최적의 해를 유도하기 위한 과정을 MRF 모델을 바탕으로한 에너지 함수의 최소화 과정으로 정형화 하였다. 그리고 정형화 과정에서는 최적의 영상분할과 인식결과를 얻기 위하여 국소적 분할및 인식결과에 대한 최적성 여부의 판별도구로서 클릭함수를 정의하고 이를 영상전체에 대하여 합산한 결과인 에너지 함수의 값을 최소화 하도록 하기 위한 방법으로서 simulated annealing 알고리즘을 사용하였다. 또한, 이들 두 문제 각각에 대하여 정의된 클릭함수를 하나의 에너지 함수로 통합하고 이를 최소화 하는 영상분할및 인식의 해를 추정함으로써 두 문제에 대한 제한조건을 동시에 만족시키는 영상분할및 인식의 최적결과를 얻을 수가 있다. 아울러 두 문제 각각에 대한 해의 최적성을 나타내는 에너지 값이 전체 에너지 함수에 미치는 반영비율을 현재의 영상분할및 인식상태의 최적도에 따라 각각 변화하는 적응적 가중치 함수로 구현함으로써 초기분할 상태의 불완전성으로 인한 오인식의 영향을 감소시켰다. 제안된 패러다임을 통하여 영상분할및 인식과정 각각으로부터 비롯되는 결과의 오류를 통합된 에너지 함수에서의 상호 견제및 보완작용을 통하여 극복할 수가 있었다. 끝으로 실제 야외 영상의 분할및 인식에 대한 실험을 통하여 제안된 방법의 효용성을 입증하였으며 이의 결과를 제시하였다.