Understanding scene images has attracted considerable attentions, and there have been many researches to solve the problem in the form of subproblems such as object detection, object recognition, and scene segmentation. Text in scene images is one of the most informative contents to understand the images. Scene text recognition is the problem of recognizing text in scene images taken in unconstrained manner. Many researches on scene text recognition have been proposed, but most of them utilize character models only in character recognition phase, the last stage of the process. In former phases such as text detection and text extraction, only abstracted features of text regions are used, which might cause loss of information.
In this thesis, we propose a novel scene text recognition method which fully utilizes concrete models of target characters from the beginning to the end of the recognition process. Each of the target character set is modeled with a part-based object model called implicit shape model (ISM) to achieve robustness for partial degradation of characters. Towards this end, we trained a Hough forest which localizes character parts and casts probabilistic votes on possible positions of characters. The votes are aggregated in voting spaces via generalized Hough transform, and then character candidates are detected at the local maxima of the voting space. The detected character candidates are verified by organizing the most plausible text lines in a semi-Markov conditional random field (semi-CRF) framework where the optimal configuration can be efficiently found using dynamic programming. As concrete character models are utilized throughout the process, even extremely deformed text are detected and recognized, which are hardly detected with previous approaches.
디지털 카메라, 스마트폰 등 카메라가 장착된 모바일 기기의 사용이 확산되면서 영상 데이터의 양이 급속도로 증가하고 있다. 하지만 영상 데이터 자체는 화소(pixel)들의 배열에 불과하므로 영상 데이터의 효과적인 활용을 위해서는 영상을 분석하여 의미 있는 정보들을 찾아내는 과정이 필수적이다. 자연 영상 내 패턴 중 가장 많은 정보량을 가진 것은 문자(text)로 알려져 있으며, 실제로 각종 간판, 이정표, 책 등에서 문자 정보를 쉽게 찾아볼 수 있다. 이러한 문자 정보의 활용을 위하여 자연 영상 내에서 문자를 찾아내고 인식하는 기술이 바로 자연 영상 내 문자인식 기술이다. 현재까지 자연 영상 내 문자인식을 위해 다양한 연구들이 발표되었지만, 기 발표된 연구들 중 대부분은 문자의 모양에 대한 구체적인 정보를 담고 있는 문자 모델을 인식 과정의 마지막 단계인 문자 인식 단계에서만 활용하였다. 앞 단계인, 영상 내 문자열의 위치를 찾아내는 문자열 탐지 단계, 그리고 문자 영역을 이진화하는 문자 추출 단계에서는 영상 내에 나타나는 문자들의 다소 추상화된 특징(feature)들만이 활용되었다. 문자의 탐지와 추출 단계에서 구체적인 문자 모델 대신 추상화된 특징들을 사용하는 것은 정보의 손실을 야기시키고, 이는 부정확한 인식 결과로 이어질 수 있다.
따라서 본 학위논문에서는 구체적인 문자 모델을 인식 과정의 처음부터 끝까지 활용하는 새로운 자연 영상 내 문자인식 방법을 제안하였다. 제안하는 방법의 첫 단계는 문자 모델들을 이용해 자연 영상에서 문자 후보들을 찾아내는 문자 탐지 단계이다. 자연 영상 내에서 문자는 조명$\cdot$ 그림자 등의 영향으로 인해 부분적으로 왜곡될 수 있으므로, 문자의 부분적 왜곡에 강인한 암묵적 형태 모델(implicit shape model)을 이용하여 각 문자 모델을 구성했다. 암묵적 형태 모델은 지역적 특성 모델의 일종으로 문자의 일부 지역적 특성이 왜곡된 경우에도 나머지 지역적 특성으로부터 문자의 위치를 유추해 낼 수 있으므로 문자의 부분적 왜곡에 강인하다는 장점이 있다. 문자 모델은 각 문자들을 포함하고 있는 훈련 데이터로부터 허프 포레스트(Hough forest)를 구성함으로써 학습되었고, 학습된 허프 포레스트는 자연 영상에서 각 문자들의 부분들을 찾아내고, 찾아진 부분들로부터 해당 문자가 존재가능한 위치를 추정해냈다. 각 문자 부분들로부터 추정된 문자의 위치는 허프 공간(Hough space) 상에서 일반화된 허프 변환(generalized Hough transform) 방법으로 취합되었고, 많은 문자 부분들이 공통적으로 추정하는 위치, 즉 허프 공간의 극댓값(local maxia)이 나타나는 곳에 문자가 존재하는 것으로 판단하여 해당 위치에 문자 후보를 생성했다.
문자의 부분적 특성들이 배경 혹은 다른 문자들에서 나타나는 경우도 있으므로 탐지된 문자 후보들 중에는 오검출된 문자(false detection)들이 다수 포함되어 있을 수 있다. 이러한 오검출된 문자들은 검증(verification) 단계에서 문자열의 고차원적 특성을 반영한 검증 과정을 거치며 제거되었다. 우선, 문자들은 대부분 다른 문자들과 함께 문자열을 구성하며 존재한다는 특성을 이용하여, 동일 선상에 정렬되어 있는 문자 후보들을 군집화했고 군집에 포함되지 못한 후보들을 제거했다. 그 후, 각각의 군집화된 영역에서 최적의 문자열을 구성하기 위해, 각 문자의 검출 신뢰도, 문자 간 위치관계, 그리고 언어모델을 반영한 세미- 마코프 조건부 랜덤 필드(semi-Markov conditional random field) 모델을 만들어냈다. 해당 모델 상에서 모델에 반영된 문자열의 특성을 가장 잘 만족시키는 최적 문자열은 동적 프로그래밍(dynamic programming)을 이용한 추론을 통해 효율적으로 찾아낼 수 있었다. 이렇게 찾아낸 최적 문자열을 최종 인식 결과로 사용하고, 이에 포함되지 않은 문자 후보들을 제거함으로써 대부분의 오검출된 문자들을 제거할 수 있었다.
우리는 제안하는 방법을 실세계에서 발견되는 다양한 변이가 포함되어 있는 자연 영상들에 대해 평가하였다. 평가 결과, 제안하는 방법은 서로 연결된 문자, 조각난 문자, 조명 및 반사에 의해 변형된 문자와 같이 기존 방법으로는 제대로 인식하기 어려웠던 문자들을 성공적으로 인식할 수 있었다. 이는, 제안하는 방법이 문자의 변이에 강인한 문자의 지역적 특성 모델을 이용해 문자 모델을 학습하고 학습된 문자 모델들을 인식 과정의 전반에 걸쳐 활용함으로써, 자연 영상에서 문자에 발생하는 다양한 변이에 대해 강인한 문자 인식을 할 수 있게 되었음을 보여주는 결과이다.