With the increasing convenience of online pen-input devices and wide use of automatic address filling up, construction of online address recognition system is necessary. Korean address can be separated into two parts, the upper part address and the street address. Recognition of street address is more difficult than recognition of upper part address because it has non-fixed form, is hard to construct DB, and is composed of multilingual words.
So, in this work, an online Korean street address recognition system is proposed. In the first phase, words from input street address are recognized by proposed word candidate generation algorithm. Here, we use improved over-segmentation based word recognition method, and generate several word recognition candidates instead of just considering one result. Then, in the second phase, we utilized proper name DB and keyword sequence network to select best result from word recognition candidates. Proper name DB is the collection of building names and corps names. Keyword sequence network represent the sequence structure of Korean street address word, and it is constructed using training data. As the last phase, recognition results of address words are combined and outputted as the result of input street address.
Data used for experiment includes 360 addresses from 9 writers, it contains 1,098 address words, and 4,392 characters. The experimental result shows that if input address is separated into words perfectly, the proposed system can get 90.7% of word recognition accuracy. It means 50% of error is reduced compared with the method only using general word recognizer.
온라인 펜 입력 장치의 편의성의 증가와 신상정보입력의 자동화에 관한 연구가 많이 진행되고 있는 현황에 비추어 볼 때 온라인 한글 주소인식은 꼭 필요한 연구분야이다. 한글주소는 상위주소와 하위주소로 나눌 수 있는데 하위주소는 형식이 정형화 되여 있지 않고 혼용단어로 구성 되여 있으므로 인식이 더 어렵다.
이 논문에서는 온라인 한글 하위 주소 인식을 목표로 하여 효율적인 시스템을 제안하였다. 먼저 첫 단계는 입력 주소단어의 인식후보를 생성하는 부분이다. 후보 생성에서는 가분할 방식의 단어 인식기를 기반으로 문자인식 후보와 분할후보를 모두 고려하는 새로운 알고리즘을 제안하였다. 다음 단계에서는 한글 하위 주소의 순서적 구조를 이용하기 위하여 하위 주소에 쓰이는 키워드를 추출하고 카테고리들로 묶어서 keyword sequence network을 구성하였다. 마지막 단계에서는 생성한 keyword sequence network과 건물이나 회사이름을 포함하는 고유이름 데이터베이스를 이용하여 단어인식 후보들 중에서 가장 좋은 후보를 찾아서 결과로 내여 주게 된다. 고유이름 데이터베이스를 이용하는 부분에서는 혼동 쌍 테이블도 같이 사용하여 단어인식 후보들 중에 정확한 결과가 없을 경우에도 정확한 인식결과를 내여 줄 수 있다.
실험은 9명의 필기자 들로부터 수집한 360개의 주소 데이터에 대하여 진행하였다. 이 데이터에는 1,098개의 주소단어와 4,392개의 문자가 포함되어 있었다. 실험 결과 기존의 단어인식기만을 사용하는 방법과 비교하였을 때 문자인식률은 79.9%에서 88.2%로 향상 되였고 단어인식률은 46.4%에서 73.3%로 향상 됨으로써 각각 41%와 50%의 오류감소율을 얻을 수 있었다.
실험으로부터 제안하는 시스템은 여러 개의 단어인식 결과를 고려함으로써 혼용단어의 인식률을 높이고 한글 하위 주소의 순서적 구조를 사용하였기 때문에 보다 안정적이고 효율적으로 한글 하위 주소를 인식 할 수 있다는 결론을 얻을 수 있었다.