서지주요정보
문자의 외형적 특징과 문맥정보를 이용한 고문서 분할-인식 통합 기법 = Recogniion-based segmentation using geometric feature and context information for handwritten historical document pages
서명 / 저자 문자의 외형적 특징과 문맥정보를 이용한 고문서 분할-인식 통합 기법 = Recogniion-based segmentation using geometric feature and context information for handwritten historical document pages / 조규태.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015290

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 04044

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

We present new recognition-based segmentation method that use character geometric feature and context information for Hanja characters. Recognition-based Hanja segmentation methods have two problems that recognition of out-of-class is time-consuming and that each segment in a character can be an individual character. In this thesis, Character geometric feature is used to reduce recognition of out-of-class and context information is used to solve the problem that each segment can be misclassified into individual character. After extracting character strings, candidate segmentation paths are determined using non-linear segmentation paths. A segmentation graph is then constructed using candidate paths to represent nodes and merging scores to represent arcs. The merging score is derived into function of character geometric score, recognition distance and bi-gram score between label of previous node and label of current node. After path with maximum merging score is detected from segmentation graph, the nodes in the path represent optimal segmentation path. 200 historical document pages that contain 78,756 handwritten characters are used for experiment. The average segmentation rate by manual counting is 99.77%. In comparison with manual segmentation result, our method achieves performance of 99.98%.

국내에 존재하는 고문서는 그 시대의 생활상이나 각종 상황 등을 이해하는데 중요한 단서가 된다는 점에서 보존의 가치가 높다. 이때 고문서에 대한 접근을 용이하게 하면서도 훼손을 방지해야한다. 따라서 고문서 전산화가 필요하다. 본 연구에서는 기존 고문서 전산화에서 분할에 요구되는 수작업을 줄이기 위한 방법을 제안한다. 이를 위해서는 분할에 대한 높은 정확도가 필수적이다. 따라서 분할의 정확도를 해치는 필기체 변이를 해결하기 위해서 인식 기반 방법을 사용한다. 이때 인식 기반 방법에서 지적되는 문제점들인 out-of-class 인식 문제, 인식 시간 소비 문제를 해결하기 위하여 글자의 외형적 특징을 이용한다. 또 분리된 세그먼트가 글자로 오인식 되는 문제를 해결하기 위해서 언어모델을 통한 문맥정보를 이용한다. 전처리를 통해 입력된 문서 영상에서 문자열을 추출하고, 필기체 변이 문제인 접촉과 겹침을 해결하기 위해 비선형 분할 경로를 사용하여 문자열을 세그먼트 단위로 분리한다. 분리된 세그먼트들을 문자의 외형적 특징, 인식 결과, 문맥정보의 세가지 기준을 사용하여 글자의 가능성이 높은 방향으로 병합한다. 실험을 통해 제안하는 시스템이 분할에 대한 수작업을 대체할 수 있을정도의 높은 정확도를 가짐을 보였다. 사람이 직접 분할한 결과에 대한 인식율과 비교하여 제안한 분할 방법의 결과에 의한 인식율은 99.98%의 성능을 보였다.

서지기타정보

서지기타정보
청구기호 {MCS 04044
형태사항 vii, 31 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Kyu-Tae Cho
지도교수의 한글표기 : 김진형
지도교수의 영문표기 : Jin-Hyung Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 30-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서