서지주요정보
한국학 고문서 전산화 작업을 위한 한자 인식 및 그 결과의 기각 방법 = Handwritten hanja recognition and its rejection method for digitalizing historical documents
서명 / 저자 한국학 고문서 전산화 작업을 위한 한자 인식 및 그 결과의 기각 방법 = Handwritten hanja recognition and its rejection method for digitalizing historical documents / 장만대.
발행사항 [대전 : 한국과학기술원, 2004].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8015283

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 04037

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, we introduce a handwritten Hanja recognition and its rejection method for digitalizing historical documents. For automatic document digitalization, character recognition acts as a substitute for manual keying, and rejection is applied to reduce misclassification. We adopt a recognition method using Mahalanobis distance measure, which works well for large and complex classes. Also, we apply two criteria, that is, an absolute distance for a class and a relative distance decided by other classes which can be represented as posterior probability to reject Hanja data excluded from training samples and confusing characters effectively. We built 2,556 character models from about 500,000 Hanja characters in Seungjeongwon-diary, historical documents and additional 78,756 characters from the same document were used for evaluation. The experiment result shows 89% precision and about 13% rejection rate for evaluation data. From the result, we believe that the efficiency of automatic digitalization would be much better with the proposed system.

본 논문에서는 필기 한자로 쓰여진 고문서를 보다 효율적으로 디지털 라이브러리화하기 위한 입력 방법을 제안한다. 제안한 입력 방법은, 문자 인식 방법과 수작업을 병행하는 방법으로서, 인식 및 기각 방법을 사용하여 유사한 글자들을 자동 군집화한 후, 수작업으로 교정 및 검증을 거쳐 최종 입력하는 방식이다. 한국한 고문서인 승정원일기를 대상으로 한 실험에서, 제안한 방법이 높은 정확률과 낮은 기각 비율을 보임으로써, 기존의 수작업 입력 방법을 대체할 경우 상당한 시간 및 노동력의 절감을 가져올 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {MCS 04037
형태사항 vi, 31 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Man-Dae Jang
지도교수의 영문표기 : 김진형
지도교수의 한글표기 : Jin-Hyung Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 30-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서