서지주요정보
Efficient object segmentation for images and video sequences = 영상 및 비디오 신호를 위한 효과적인 객체 분할에 관한 연구
서명 / 저자 Efficient object segmentation for images and video sequences = 영상 및 비디오 신호를 위한 효과적인 객체 분할에 관한 연구 / Byung-Gyu Kim.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015541

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 04013

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Most computer vision applications require segmentation of objects or regions from an original image in order to understand/analyze a given image frame. In a variety of applications, such as surveillance systems, fire control systems, guidance, robotics, and autonomous vehicle navigation, object segmentation (region partitioning) is necessary to provide basic information for high level image analysis, retrieval, and recognition systems. Segmentation performance is usually determined by the accuracy and time required for region partitioning. Accuracy can be determined by assignment of an appropriate color for a region of the original image. The time required can be determined by the processing time necessary for a final segmentation result. For real time applications using vision sensors, fast techniques for segmentation are necessary. An efficient object segmentation algorithm is proposed to improve the accuracy of segmentation and reduce the time required. For faster region segmentation, a fast image segmentation scheme is pro-posed based on multi-resolution analysis (MRA) and wavelets. Many spatial segmentation algorithms use a pre-selected feature, such as color/intensity or edge/direction. These features are transformed into a probabilistic distribution. Usually, the transformed distribution of the given feature provides information that is sufficient for segmentation of image regions. An efficient algorithm for image segmentation based on a multi-resolution application of a wavelets transform is proposed in which the original feature space is transformed into a lower resolution image with a wavelets transform in order to derive fast computation of the optimum threshold value in the feature space. A single feature value or multiple feature values are determined as the optimum threshold values based on this lower resolution version of the given feature space. The optimum feature values in the lower resolution image are projected onto the original feature space. In this step, a refinement procedure may be added to detect the optimum threshold value. In order to improve the accuracy of object segmentation, an efficient intraframe segmentation strategy based on edge information is provided to assist object/region-based video coding, motion estimation, and motion compensation. Gradient operators in the form of a spatial mask are performed for every pixel in most methods for describing the edge in image. This procedure is time consuming, computationally complex, and is sensitive to noise. If the edge is not well defined, post-processing procedures, such as edge clustering, removing, and linkage should be added to refine the edge. We define edge features for edge information based on an analysis of the local histogram rather than by use of spatial masks. An edge can be considered as adjacent regions having two or more distinct brightness or color values. If the intensity distribution of an image is multi-modal, the image probably contains an edge. Otherwise, the image has no edge information. Based on edge information from analysis of a local histogram, a discriminant function is defined to generate an edge information map, which can be thought as a gradient.image (edge map) of the original image. This edge map is a good indicator of whether an area is in the interior of the region or near a boundary. The characteristics of the generated edge map allow use of a region growing method to segment the image. Region growing consists of determining marker points and expanding from marker lo-cations. Region growing is followed by region merging and filtering to yield the final segmentation result. Unlike segmentation of still images, a region updating and segmentation algorithm is needed to improve the segmentation performance of video signals that represent continuous object motion. We introduce an optimum thresholding method for change detection and a region updating algorithm to generate a change detection mask from a frame difference image. To partition the difference map into changed and unchanged regions, we consider an adaptive thresholding scheme for selection of a proper threshold value. The size and the shape of the moving part of an object can be dramatically changed based on threshold values. Therefore, it is important to select proper threshold values for detection of the changed region for each frame. To achieve this goal, a new probability model for the stationary part of the image is set as an asymmetric Laplacian model to distinguish the moving part of the image. Based on a new image model of the stationary part, optimum threshold values are selected using a likelihood criterion. Using the obtained moving part, a temporal updating scheme of objects (or regions) is presented that can result in efficient segmentation in the temporal domain.

영상센서 기반의 정보처리에 있어서 영상을 분할하는 기술은 주어진 영상이나 비디오 신호를 해석하고 또 어떤 객체를 인식하는데 아주 중요한 기술이다. 영상 분할은 영상속에 포함된 다양한 정보를 활용할 수 있다. 이러한 정보의 특징화를 기반으로 원하는 영역들을 추출할 수 있으며 임의의 결합된 영역을 서로 다른 영역으로 구별할 수 있다. 최근에는 차세대 영상통신 및 영상을 이용한 멀티미디어 서비스의 표준인 MPEG-4 와 MPEG-7, MPEG-21에서는 이러한 객체 기반의 기능성 및 활용성이 표준안으로 채택되었다. 이러한 표준안들에서는 비트열 형태로 전송되는 데이터에서 직접적으로 원하는 객체에 대한 접근 및 조작이 가능하도록 하였다. 다양한 멀티미디어 응용 분야에서 객체 기반의 서비스를 제공하기 위해서는 무엇보다도 매 프레임에서의 원하는 객체를 정의하고 그 객체를 어떠한 단위를 가지는 영역으로 분할하는 작업이 선행되어야 한다. 임의의 비디오 신호에서 비디오 객체 (video object)는 임의의 텍스쳐와 형태를 가질 수 있다. 하나의 비디오 객체를 가진 영상 공간을 비디오 객체면 (video object plane)이라 정의함으로써 영상 및 객체 분할과정은 필수적이다. 본 연구에서는 기존에 제안된 비디오 객체 분할 기법들을 조사하고 그 문제점들을 소개한다. 또한 이러한 문제점들을 해결하기 위하여 영상분할 정확도와 처리 시간의 측면에서 개선된 기법과 그 가능성을 모색 및 검증하였다. 최근에 많이 연구되고 있는 다중해상도분석 (multi-resolution analysis) 기법은 영상분할이나 영상압축 등에 응용되고 있으며, 과중한 영상 데이터를 효과적으로 감소시키기 위한 대안으로 각광받고 있다. 본 연구에서는 이러한 다중해상도분석 (multi-resolution analysis) 기법을 활용하여 고속 영상분할 기법을 제안하였다. 많은 영상분할 기법들이 원시영상 (raw image) 에서 어떠한 특징을 추출한 다음 추출된 특징공간에서 적절한 분할된 영역을 기술한다. 본 연구에서는 추출된 특징의 분포를 추출하여 몇 단계의 다중해상도 변환 (multi-resolution transformation)을 통하여 특징분포 신호를 근사화 및 차원 감소를 행하고 이 근사화된 신호를 통하여 분할을 위한 정보를 추출한다. 저차원 공간 (lower dimension space)에서 추출된 정보를 원신호에 대한 특징공간으로 변환함으로써 최적의 분할 영역을 영상 평면상에서 구현하였다. 제안된 기법에 의해 영상분할을 위한 처리시간은 현저하게 감소되며, 분할 결과 또한 원영상의 특징공간에서 처리된 결과와 동일한 결과를 얻을 수 있었다. 비디오 객체나 내용물을 제대로 서술하기 위한 시도는 오래전부터 이루어져 왔으며 대부분이 제안된 특징이 가지는 한계점으로 인하여 문제점을 가지고 있다. 대부분의 기법들이 공간상에서 임의의 영상을 분할하기 위하여 에지 (edge) 정보를 이용하고자 하였다. 본 연구에서는 기존의 공간적인 밝기의 변화를 추출하는 기법과는 달리 한 영역에 대한 영상의 밝기 분포 (intensity distribution)을 활용하여 에지 즉, 임의의 두 영역간의 경계에 해당하는 화소를 정량적으로 정의하였다. 제안된 기법에서는 Histogram 특성의 분석을 통하여 Local contrast (C), Region ratio (R) 그리고 Edge potential (P)를 정의하고 정의된 변수들의 특성을 분석하여 에지정보를 서술하는 변별 함수 (discriminant function)을 정의하였다. 본 연구에서는 일반적으로 공간적인 밝기의 변화를 추출하는 기법과는 달리 Region ratio (R) 그리고 Edge potential (P)에 기반을 둔 에지정보를 추출하였다. 따라서 밝기 변화가 약한 에지들도 검출할 수 있도록 하였으며 제안된 특징들에 의해 추출된 에지정보를 이용하여 마커 (marker) 기반의 영역확장 기법을 제안하였다. 또한 객관적 분할성능을 기존의 에지 추출을 위한 공간적 마스크인 Canny 연산자를 이용한 Watershed 기법 및 다중해상도분석 (multi-resolution analysis) 기반의 확률적 완화 (probabilistic relaxation) 기법과의 비교를 통해 제안된 기법의 신뢰성을 입증하였다. 또한 시간영역 내의 정보를 객체의 추적 및 예측에 활용하기 위하여 차영상 (frame difference image)을 이용하여 움직임이 존재하는 영역을 적응적으로 추출하는 기법 및 추적하는 효과적인 기법을 제안하였다. 제안된 기법에서는 새롭게 소개되는 차영상의 확률적 모델인 비대칭 Laplacian 분포를 이용하여 정지 영역에 대한 모델을 설정하고 이 모델을 이용하여 움직임 영역을 추출하기 위한 최적의 임계값들을 결정한다. 최적화된 임계값으로 움직임 영역에 대한 마스크 (mask)를 설정하고 이 영역만을 현재 프레임에서의 영역 갱신 (label updating)이 필요한 화소들로 분류하고 갱신이 필요한 영역의 인접한 이웃 영역의 칼라 정보를 이용한 확률적 분류기법으로 마스크 영역을 갱신함으로써 비디오 객체를 시간영역에서 추적한다. 다양한 실험을 통하여 제안된 영상 모델이 실제 차영상의 분포를 잘 근사화함을 보이고 또한 추출된 움직임 영역 또한 객관적 비교를 통해 매우 양호함을 보였다. 제안된 기법에서 최적의 임계값은 영상의 특성에 따라서 적응적으로 결정되므로 그 추출 결과가 차영상의 특성에 따라서 차이가 날 것이다. 또 초기 분할된 비디오 영역들이 프레임이 진행됨에 따라서 신뢰성있게 추적 및 분할 됨을 다양한 비디오 시퀀스들을 사용하여 검증하였다. 추후 과제로는 제안된 에지 (edge) 특징 이외의 비디오 객체 및 영상의 영역을 효과적으로 서술하기 위해 텍스쳐 (texture) 기반의 분할 및 특징 추출 기법의 연구가 필요하며 이러한 텍스쳐 (texture)기반 특징의 도입은 처리시간의 증가를 가져오게 된다. 따라서 임의의 객체나 영역의 텍스쳐 (texture)를 빠르고 효과적으로 묘사할 수 있는 기법의 연구가 진행되어야 한다.

서지기타정보

서지기타정보
청구기호 {DEE 04013
형태사항 xvi, 157 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김병규
지도교수의 영문표기 : Dong-Jo Park
지도교수의 한글표기 : 박동조
수록잡지명 : "Fast image segmentation based on multi-resolution analysis and wavelets". Pattern recognition letters, no. 24, pp.2995-3006(2003)
수록잡지명 : "Novel thresholding algorithm for scene change detection in video sequence". IEICE trans. Information and systems
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 146-157
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서