서지주요정보
Bayesian network modeling of character components and their relationships for on-line handwriting recognition = 온라인 필기 인식을 위한 문자의 구성요소와 상호관계의 베이지안망 모델링
서명 / 저자 Bayesian network modeling of character components and their relationships for on-line handwriting recognition = 온라인 필기 인식을 위한 문자의 구성요소와 상호관계의 베이지안망 모델링 / Sung-Jung Cho.
발행사항 [대전 : 한국과학기술원, 2003].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8014437

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 03018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The purpose of on-line handwriting recognition is to automatically recognize characters handwritten with digitizing tablets and pens. For highly accurate character recognition, it is necessary to model character structures as realistically as possible. In this paper, character structures are defined as hierarchical components and their relationships. For instance, a Hangul syllable character has graphemes, strokes and points as its components. An English word has alphabets, strokes and points. Here, strokes are straight or nearly straight traces. Components are hierarchical in that a component consists of its subcomponents and their relationships. Relationships between components are defined as dependencies between their positions. Character structures have not been actively modeled in previous studies. Conventional approaches such as template matching methods, hidden Markov models and time delay neural networks are lack of parameters for explicitly modeling them. They are based on the assumption that local feature inputs in a handwriting input are independent one another. The dissertation proposes a Bayesian network framework which explicitly models character components and their relationships. A character model is composed of grapheme models with inter-grapheme relationships. A grapheme model is composed of stroke models with inter-stroke relationships. Similarly, a stroke model is composed of point models with their relationships. A point model has a 2-D Gaussian distribution for modeling X-Y positions of point instances. Relationships between components are represented by conditional Gaussian distributions. All the models and relationships are probabilistically and graphically represented in a Bayesian network framework. All the parameters are trained from data in the objective of maximum likelihood. The proposed system was trained and evaluated with on-line handwritten Hangul syllables (105 writers, 83,853 characters) and digits (more than 290 writers, 32,892 characters), and showed promising results. Its recognition performance was greatly improved by modeling relationships. By modeling relationships of points within strokes, recognition rates increased from 83.1% to 98.5% on average for digits. The prediction uncertainties of point models, measured by determinant values of covariances, were reduced from an order of $10^{-4}$ to that of $10^{-9}$ on average. By modeling the relationships between strokes, the recognition rates increased from 97.7% to 98.5% on average for digits. The prediction uncertainties were also reduced by 48% on average. The recognition rates of the proposed system were higher than those of the HMM system. They were 95.7% on Hangul syllables and 98.5% on digits. On the other hand, the recognition rates of the HMM system were 92.9% and 97.3% respectively. A character generation experiment implicitly showed that the proposed system had superior modeling power to various kinds of HMMs. The characters generated by the proposed system showed more natural grapheme shapes, grapheme relationships, stroke shapes and stroke relationships than those generated by HMMs.

온라인 필기인식은 전자펜과 테블렛으로 필기한 문자를 자동으로 인식하는 것이다. PDA와 펜컴퓨터가 보편화됨에 따라, 편리하고 휴대성있는 입력장치로서의 중요성이 부각되고 있다. 고성능의 필기인식을 위해서는 문자구조를 가능한 실제와 가깝게 모델링하는 것이 필요하다. 본 연구에서 문자구조는 계층적인 구성요소와 상호관계로 정의된다. 예를 들어, 한글낱자는 자모, 획과 점들로 구성된다. 영어 단어는 알파벳, 획과 점들로 구성된다. 여기서 획은 직선 또는 준직선을 의미한다. 구성요소는 하위 구성요소와 이들의 상호관계로 계층적으로 조합된다. 상호관계는 구성요소들의 위치의 의존관계로 정의된다. 기존 방법론으로는 문자구조를 세부적으로 모델링하는데 한계가 있다. 문자인식에 널리 알려진 원형정합, 은닉 마르코프 모델, 시간지연 신경망에서는 문자구조를 표현하는 모델링 파라미터가 부족하다. 이들은 모두 필기입력을 구성하는 국소입력들이 서로 독립이라고 가정하기 때문이다. 본 논문에서는 문자의 구성요소와 상호관계를 명시적으로 모델링하기 위하여 베이지안망 구조(framework)를 제안한다. 문자모델은 자모모델과 이들간 상호관계로 구성된다. 자모모델은 획모델과 이들간 상호관계로 구성된다. 획모델은 점모델과 이들간 상호관계로 정의된다. 마지막으로 점모델은 평면상의 점의 위치를 모델링하는 2차원 가우시안 분포로 표현된다. 구성요소간 상호관계는 조건부 가우시안 확률분포로 표현된다. 모든 모델과 상호관계는 베이안망 구조를 통해 확률적이고 시각적으로 표현된다. 모든 모델 파라미터는 학습데이터로부터 최대우도추정법(maximum likelihood estimation)으로 학습된다. 온라인으로 필기한 한글 83,853자(필자 105명)와 숫자 32,892자(필자 290여명)로 제안한 시스템을 학습 및 평가하여, 유망한 결과를 얻었다. 상호관계 모델링을 통하여 인식성능을 크게 향상하였다. 획내 점들간 상호관계 모델링을 통하여, 숫자의 인식률이 83.1%에서 98.5%로 향상되었다. 공분산(covariance)의 행렬식(determinant)로 측정되는 점모델의 예측 불확실성도 평균 $10^{-4}$ 단위(order)에서 $10^{-9}$단위로 감소하였다. 획들간 상호관계 모델링을 통하여, 숫자의 인식률이 평균 97.7%에서 98.5%로 향상되었고, 점모델의 예측 불확실성도 평균 48% 감소하였다. 제안한 시스템은 기존 은닉마르코프 모델 기반 시스템보다 높은 인식률을 보인다. 제안한 시스템은 한글낱자에 대하여 평균 95.7%, 숫자에 대하여 평균 98.5%의 인식률을 보이지만, 기존 시스템은 92.9%와 97.3%의 인식률을 보인다. 각 모델들로부터 가장 확률이 높은 대표적인 문자들을 생성한 후, 모양을 비교한 결과, 제안한 시스템이 은닉 마르코프 모델에 비하여 모델링 능력이 우월함을 간접적으로 확인하였다. 제안한 시스템에서 생성된 문자들이 더 자연스러운 자모모양, 자모간 관계, 획모양, 획관계를 보인다.

서지기타정보

서지기타정보
청구기호 {DCS 03018
형태사항 xii, 91 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 조성정
지도교수의 영문표기 : Jin-Hyung Kim
지도교수의 한글표기 : 김진형
수록잡지명 : "Verification of graphemes using neural networks for HMM-Based On-line handwritten hangul syllable recognition". International journal of computer processing of oriental languages, v.15 no.2, pp. 133-147 (2002)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 87-91
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서