서지주요정보
Hierarchical graphical model-based methods for object identification and categorization with visual context = 영상 문맥 정보를 이용한 계층적 그래피컬 모델 기반 물체 인식 및 분류 기법
서명 / 저자 Hierarchical graphical model-based methods for object identification and categorization with visual context = 영상 문맥 정보를 이용한 계층적 그래피컬 모델 기반 물체 인식 및 분류 기법 / Sung-Ho Kim.
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018060

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 07010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The goal of object recognition is to label objects from images and to estimate the poses of the labeled objects. The field of object recognition has seen tremendous progress with successful applications in some specific domains such as face recognition. However, the current state-of-the-art methods show unsatisfactory results for more general object domains in complex natural environments with visual ambiguities. In this dissertation, we aim to enhance the object identification and categorization with the guide of visual context and graphical model. In this dissertation, we propose a general framework for the cooperative object identification and object categorization. Examplars used in identification provide useful information of similarity in categorization. Conversely, novel objects are rejected in identification but the proposed object categorization can label the novel objects and segment them out for database update in identification. In the first part of the work, we propose a hierarchical graphical model (HGM) for the disambiguation of blurred objects. We define three types of visual context such as spatial, hierarchical, and temporal context, which provide powerful disambiguation. To handle both the visual relation and uncertainty, we model them by the HGM. It consists of part layer, object layer, and a place node. Pose information in part and object layer is inserted into nodes for the utilization of part-object context. Due to the complexity of graphical model, we apply the piecewise learning which gives practical learning of the HGM, and propose a context-guided sample generation and pruning for the variable graph estimation and distribution estimation. The bidirectional interaction in the HGM can discriminate ambiguous objects and places simultaneously in real environment. Large scale experiments for building guidance validate the robustness. As a direct extension, the HGM is adapted for the video interpretation by incorporating additional temporal context. In the second part of the work, we propose a directed graphical model, a variant of the HGM, for the simultaneous segmentation and categorization in cluttered environments. Conventional methods show weak performance due to the ambiguity of figure-ground. We enhance the categorization by the proposed online boost based on the part-part and part-object context. It can provide robust bottom-up proposal for the clutter reduction. The boosted MCMC (Markov Chain Monte Carlo) optimizes the simultaneous categorization and segmentation. Samples from bottom-up boost provide fast and accurate results. The proposed system shows upgraded enhancement for cluttered environments.

최근 컴퓨터 비전 분야에서 물체 인식에 대한 관심이 높아지고 있으며, 지능형 서비스 로봇 연구와 맞물려 실제 환경에서 동작할 수 있는 수준의 고난이도 기술이 요구되고 있다. 그 동안, 실험실 환경에서 물체 인식이 주로 이루어졌으며, 실제 환경에서 물체 인식 연구는 시작 단계에 머무르고 있다. 이는 물체 인식이 실제 환경에서 강인하게 동작하기 위해 물체의 구분성 (scalability, selectivity) 과 일반성 (generality, invariance) 을 동시에 갖추기 힘들기 때문이다. 본 논문에서는 물체의 구분성과 일반성을 위해 영상 문맥을 정의하고 모델링하는 기법을 제안하였다. 본 논문은 실제 환경에서 많은 물체를 인식하기 위한 구분성을 해결하는 부분과 기존에 학습한 물체로부터 처음 보는 물체를 인식할 수 있는 일반성을 해결하는 부분으로 이루어져있다. 첫 번째 부분에서는 영상 문맥 정보 종류에 따른 모델링 기법이 제안되며, 각 모델 별 물체 구분성의 범위에 대해 정량적으로 분석 및 비교한다. 픽셀 문맥은 픽셀이 갖고 있는 밝기 및 칼라의 공간적 상관 관계를 나타낸다. 인간 시각의 주의 집중 특성에 기초하여 전체 영상을 원형 (convex) 파트와 코너 (corner) 파트로 나눈 후, 각 파트의 픽셀 문맥이 제공하는 에지 크기, 방향, 색도 (hue) 정보를 지역 히스토그램으로 표현한다. 픽셀 문맥에 기초하여 제안된 특징량은 G-RIF이며, 다양한 기하학적, 광학적 변화에 대한 강인한 물체 레이블링 성능을 보여준다. 그러나, 물체 배경이 복잡할 경우, 인식률이 낮아지는 경향을 보인다. 파트 문맥은 물체를 구성하는 파트들 사이의 상호 관계를 의미하는 것으로, 같은 물체에 속하는 파트는 유사성과 인접성을 보여주며 그룹화되는 경향이 있다. 본 논문에서는 파트 문맥을 가중치 누적 기법으로 모델링하여 배경 잡음에 강인한 물체 레이블링 기법을 제안하였다. 물체 내부에 속하는 파트는 강한 가중치를 받으며, 배경에 속하는 파트는 매우 작은 가중치를 받기 때문에 반복을 통해서 배경의 영향을 줄인다. 이 가중치를 보팅함으로 최종 레이블 정보를 얻는다. 그러나, 픽셀 문맥, 파트 문맥으로부터 물체 레이블 정보를 얻을 수 있지만, 물체의 위치 정보는 얻을 수 없다. 파트-전체 문맥은 물체 레이블 이외에 물체 위치에 대한 정보를 제공한다. 특히, 100개 이상의 3D 물체를 표현함에 있어 확장성 (scalability)를 위해 파트의 공유 (코드북) 와 전체의 공유 (뷰공유) 개념을 제안하였다. COIL-100 DB에 대한 실험 평가를 통해 물체 레이블링 및 위치 추정에 있어서 확장성을 확인하였다. 한편, 실제환경에서 영상의 블러링에 의해 물체가 모호해질 수 있다. 이 때는 물체 자체 정보만으로는 구분이 되지 않는다. 장면 문맥 혹은 위치 문맥 정보를 활용할 경우, 모호한 물체를 구분할 수 있다. 반대로, 모호한 위치는 인식한 물체 문맥 정보로부터 구분할 수 있다. 본 논문에서는 이와같은 공간 문맥과 계층 문맥을 통합할 수 있는 계층적 그래피컬 모델 (HGM)을 제안하였다. 특히, 부분 학습 (piecewise learning) 기법과 샘플 기반 그래프 구조 및 인식 기법은 실제 영상 이해에 매우 유용함을 실험적으로 보였다. 나아가, 비디오 영상에서 정지 문맥과 시간 문맥을 통합하여 보다 실용적인 비디오 이해 시스템을 제안하였다. 두 번째 부분에서는 기존에 학습한 물체로부터 처음 보는 물체를 인식하는 확장성을 해결하는 기법을 제안하였다. 픽셀 문맥에 엔트로피 정보를 이용하여 물체 표면의 마킹에 강인한 코드북을 생성하는 기법을 제안하였으며, Caltech-101 DB에서 향상된 카테고리 레이블 결과를 얻었다. 또한, 파트-파트 및 파트-전체 문맥을 이용하여 카테고리 레이블 및 물체 분할하는 방법을 제안하였다. 이 방법은 베이시안 네트 (Bayesian Net) 구조로 표현되며, 부스트 MCMC 샘플링 기법을 통해 최적화된다. 배경 잡음이 있는 영상에 대해 물체 카테고리 및 물체 영역 분할을 강인하게 할 수 있음을 실험적으로 보였다. 본 논문의 주된 의의는 다음과 같다. 첫째, 실제 환경에서 많은 물체를 인식하기 위한 구분성 이슈를 해결하기 위해 영상 문맥 정보를 분석하고 그래피컬 모델을 이용하여 모델링하고 구분성의 범위를 실험적으로 확인하였다. 둘째, 실제 환경에서 기존에 보지 못한 처음 보는 물체를 인식하기 위한 일반성 이슈를 해결하기 위해 영상 문맥 정보 활용 기법을 제안하였다. 배경 잡음이 있는 환경에서 카테고리 레이블 및 영역 분할을 통해 일반성을 획득하였다. 마지막으로 물체 인식 (identification) 및 분류 (categorization) 문제를 상호협력적 관점에서 해결하는 기법을 제안하였다. 물체 인식은 물체 분류를 통해 확장성을 얻었으며, 물체 분류는 물체 인식에 사용되는 물체 예를 통해서 유사도를 계산할 수 있었다.

서지기타정보

서지기타정보
청구기호 {DEE 07010
형태사항 xvi, 168 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김성호
지도교수의 영문표기 : In-So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "Robust model-based scene interpretation by multilayered context information". Computer vision and image understanding, inpress, pp. 811-821(2006)
수록잡지명 : "3D target recognition using cooperative feature map binding under markov chain monte carlo". Pattern recognition letteres, v.27.no.7,
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학전공,
서지주기 Reference : p. 159-168
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서