서지주요정보
A probabilistic framework integrating multiple proposals of text regions for scene text extraction = 자연 영상 내 글자 추출을 위한 확률 모델 기반의 글자 후보 통합 시스템에 관한 연구
서명 / 저자 A probabilistic framework integrating multiple proposals of text regions for scene text extraction = 자연 영상 내 글자 추출을 위한 확률 모델 기반의 글자 후보 통합 시스템에 관한 연구 / Seong-Hun Lee.
저자명 Lee, Seong-Hun ; 이성훈
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025303

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 13023

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Text contained in scene images provides the semantic context of the images. For that reason, robust extraction of text regions is essential for successful scene text understanding. However, separating text pixels from images still remains a challenging issue because of uncontrolled lighting conditions and complex backgrounds. In addition, any prior knowledge about text regions is usually unavailable in the scene image. To robustly extract text regions in the scene image, we propose a two-stage probabilistic framework that combines top-down knowledge of the text and bottom-up image processing. To deal with the various conditions of scene images, bottom-up image processing produces multiple image segmentations which represent different types of interpretations of the scene images. Our image segmentation algorithm seamlessly combines color, texture, and edge to isolate text regions from backgrounds without the loss of small details of text regions. Even though single segmentation cannot find all text regions, the set of all segmented regions obtained by multiple segmentations could contain all text regions. The proposed two-stage conditional random field approach generates multiple proposals of text regions and integrates them into textlines by utilizing the properties and hierarchical structures of the scene text. A region-oriented representation of the image is used to build a random field in each stage of the CRF model for identifying the possibilities of the text regions at local and global levels. In the first stage, proposals of text regions are generated by removing apparent non-text regions in each segmentation by using a local CRF model. The local CRF model couples to local image features such as color, edge, and textures as well as global character contexts such as compactness, aspect ratio, and compatibility between characters. In the second stage, the proposed system selectively integrates the multiple proposals to find plausible combinations of text regions by validating consistency of proposals in textlines. The labels of proposals are verified in a global sense by a holistic CRF model, which reflects alignment of characters and mutual exclusiveness of overlapping proposals in textlines. Through the two-stage CRF approach, we cast the scene text extraction problem as probabilistic labeling, which yields the optimal label configuration that maximizes the conditional probability of the given image. Experimental results indicate that our framework exhibits good performance in the case of the ICDAR 2011 database.

전 세계적으로 모바일 기기에 카메라 장착은 필수 사항이 되어가고 있으며, 이에 따라 카메라로부터 얻을 수 있는 자연 영상(scene image)은 모바일 단말을 소지한 사람의 상황을 이해할 수 있는 풍부한 정보로 활용될 수 있게 되었다. 자연 영상 내 패턴 중 가장 많은 정보량을 가진 것은 문자(scene text)로 알려져 있으며, 실제로 각종 이정표, 표지판, 간판 등에서 문자 정보를 쉽게 찾아볼 수 있다. 자연영상 내 문자 정보를 활용하기 위해서는 이를 인식하는 과정이 필요한데, 인식 결과의 정확도는 영상 내 문자 검출의 정확도에 의존적이다. 따라서 영상에 존재하는 다양한 종류의 문자를 배경으로부터 정확히 분리해내는 문자 검출 기술이 필요하다. 하지만 영상 내 문자를 분할하는 문제는 아직 쉽게 풀리지 않은 어려운 문제로 남아있는데, 그 이유로는 자연 영상은 조명의 영향을 많이 받아 영상에 나타나는 글자의 색이 변하거나, 글자의 주변이 복잡할 수 있고, 영상 전체를 보면 글자와 유사한 형태를 가지는 창문, 기둥과 같은 물체가 많아 글자와 구별이 어렵다는 점을 들 수 있다. 또한 카메라로 촬영한 영상의 다양성이 커서 글자의 위치, 크기, 색상 등을 미리 알 수 없는 경우가 일반적이다. 본 연구에서는 영상 내 문자를 추출하기 위해서 영상으로부터 다양한 글자 영역 후보를 생성하고 이를 통합 및 검증하는 방법을 제안하였다. 글자 영역 내 색상이 균일하다는 정보와 글자들은 수평적으로 나란히 정렬되어 있다는 정보, 그리고 글자 영역과 주변 배경 영역은 명확한 경계선이 생긴다는 정보를 이용하여 Generalized K-means 클러스터링 방법을 통해 영상을 분할하였다. 이때 다양한 조명 변화와 색상의 변이가 혼재한 영상 속에서도 글자 영역을 추출하기 위해, 다양한 색상 거리 측정 방법을 적용하여 여러 가지 영상 분할을 생성하였다. 그 결과 글자 영역에 대한 다양한 후보군을 추출함으로써 정확한 글자 영역이 추출될 수 있는 가능성을 증가시켰다. 각각의 분할된 영역 중에서 글자 영역을 추출하기 위해, 각 영역이 얼마나 글자와 가까운지, 또한 그들간의 관계가 얼마나 글자간의 관계를 잘 나타내는지를 판단하는 2단계 조건부 확률 모델링을 제안하였다. 제안하는 방법은 균일한 특징을 보이는 화소들의 영역을 하나의 컴포넌트로 구성함으로써 화소 단위에서 전역적인 관계를 모델링하고자 할 때 발생하는 복잡도를 효율적으로 해결했고, 글자 영역의 문맥상의 특징을 하나의 통합된 확률적인 프레임상에서 표현하였다. 2단계 조건부 확률 모델링을 활용하여 대부분의 배경 영역은 제거되고 글자 영역만 추출할 수 있었다. 우리는 제안하는 방법을 실세계에서 발견되는 다양한 자연 영상들에 대해 평가하였다. 제안된 방법으로 추출된 문자 요소들이 다른 방법들에 비해 더 정확하게 실제 영상에서 발견되는 문자 요소의 모양에 가까운 형태로 추출되어 인식하기에 용이할 것임을 확인했다. 본 연구의 결과를 이용하여 자연 영상 내에서 문자 픽셀을 효율적으로 분리해 낼 수 있게 되었으며, 이에 따라 OCR 모듈을 이용한 자연영상 내 텍스트 인식이 가능해 졌다. 이를 활용하여 실시간 자동 외국어 번역 서비스뿐만 아니라, 영상 기반 인터넷 검색, 영상의 콘텐츠 기반 색인화 등 다양한 응용 기술의 개발이 가능하다.

서지기타정보

서지기타정보
청구기호 {DCS 13023
형태사항 vi, 78 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이성훈
지도교수의 영문표기 : Jin-Hyung Kim
지도교수의 한글표기 : 김진형
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 67-71
주제 Scene Text Extraction
Two-Stage CRF Models
Multiple Image Segmentations
Component
Character Proposal
자연 영상 내 글자 추출
2단계 CRF 모델
다중 영상 분할
컴포넌트
글자 후보 통합
QR CODE qr code