서지주요정보
Online recognition of korean street address = 온라인 한글 하위 주소 인식
서명 / 저자 Online recognition of korean street address = 온라인 한글 하위 주소 인식 / Shannu Jiang.
발행사항 [대전 : 한국과학기술원, 2006].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8017820

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 06045

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the increasing convenience of online pen-input devices and wide use of automatic address filling up, construction of online address recognition system is necessary. Korean address can be separated into two parts, the upper part address and the street address. Recognition of street address is more difficult than recognition of upper part address because it has non-fixed form, is hard to construct DB, and is composed of multilingual words. So, in this work, an online Korean street address recognition system is proposed. In the first phase, words from input street address are recognized by proposed word candidate generation algorithm. Here, we use improved over-segmentation based word recognition method, and generate several word recognition candidates instead of just considering one result. Then, in the second phase, we utilized proper name DB and keyword sequence network to select best result from word recognition candidates. Proper name DB is the collection of building names and corps names. Keyword sequence network represent the sequence structure of Korean street address word, and it is constructed using training data. As the last phase, recognition results of address words are combined and outputted as the result of input street address. Data used for experiment includes 360 addresses from 9 writers, it contains 1,098 address words, and 4,392 characters. The experimental result shows that if input address is separated into words perfectly, the proposed system can get 90.7% of word recognition accuracy. It means 50% of error is reduced compared with the method only using general word recognizer.

온라인 펜 입력 장치의 편의성의 증가와 신상정보입력의 자동화에 관한 연구가 많이 진행되고 있는 현황에 비추어 볼 때 온라인 한글 주소인식은 꼭 필요한 연구분야이다. 한글주소는 상위주소와 하위주소로 나눌 수 있는데 하위주소는 형식이 정형화 되여 있지 않고 혼용단어로 구성 되여 있으므로 인식이 더 어렵다. 이 논문에서는 온라인 한글 하위 주소 인식을 목표로 하여 효율적인 시스템을 제안하였다. 먼저 첫 단계는 입력 주소단어의 인식후보를 생성하는 부분이다. 후보 생성에서는 가분할 방식의 단어 인식기를 기반으로 문자인식 후보와 분할후보를 모두 고려하는 새로운 알고리즘을 제안하였다. 다음 단계에서는 한글 하위 주소의 순서적 구조를 이용하기 위하여 하위 주소에 쓰이는 키워드를 추출하고 카테고리들로 묶어서 keyword sequence network을 구성하였다. 마지막 단계에서는 생성한 keyword sequence network과 건물이나 회사이름을 포함하는 고유이름 데이터베이스를 이용하여 단어인식 후보들 중에서 가장 좋은 후보를 찾아서 결과로 내여 주게 된다. 고유이름 데이터베이스를 이용하는 부분에서는 혼동 쌍 테이블도 같이 사용하여 단어인식 후보들 중에 정확한 결과가 없을 경우에도 정확한 인식결과를 내여 줄 수 있다. 실험은 9명의 필기자 들로부터 수집한 360개의 주소 데이터에 대하여 진행하였다. 이 데이터에는 1,098개의 주소단어와 4,392개의 문자가 포함되어 있었다. 실험 결과 기존의 단어인식기만을 사용하는 방법과 비교하였을 때 문자인식률은 79.9%에서 88.2%로 향상 되였고 단어인식률은 46.4%에서 73.3%로 향상 됨으로써 각각 41%와 50%의 오류감소율을 얻을 수 있었다. 실험으로부터 제안하는 시스템은 여러 개의 단어인식 결과를 고려함으로써 혼용단어의 인식률을 높이고 한글 하위 주소의 순서적 구조를 사용하였기 때문에 보다 안정적이고 효율적으로 한글 하위 주소를 인식 할 수 있다는 결론을 얻을 수 있었다.

서지기타정보

서지기타정보
청구기호 {MCS 06045
형태사항 v, 27 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 강선녀
지도교수의 영문표기 : Jin-Hyung Kim
지도교수의 한글표기 : 김진형
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 26-27
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서