서지주요정보
최대 엔트로피 모델을 이용한 한국어 품사 태깅 = Korean part-of-speech based on maximum entropy model
서명 / 저자 최대 엔트로피 모델을 이용한 한국어 품사 태깅 = Korean part-of-speech based on maximum entropy model / 강인호.
발행사항 [대전 : 한국과학기술원, 1999].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8009808

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 99004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9005993

소장위치/청구기호

서울 학위논문 서가

MCS 99004 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis presents a statistical part-of-speech tagging model. Unlike previous models that use part-of-speech information as their contextual information, we propose a model that uses various kinds of contextual information. Because Korean part-of-speech tag is decided not by word unit but by morpheme unit, we need four forms of contextual information more. One is for unknown words and the others are for complementing local contexts. Unknown words are the main obstacle to robust tagging systems and we predict their part-of-speech tags using relations of their surrounding morphemes. These relations make it possible to decide the boundary and POS tag of the unknown morpheme in an unknown word. To complement the POS contextual information, we use three other forms of contextual information, lexical idiosyncrasies, syntactic pattern, and collocation list for semantic information. These four kinds of contextual information are combined with Maximum Entropy Principle, which is well suited for combining various features in a principled manner. Experimental results show that our system performs better than models that use POS tags as their contextual information. It reduces the error rate about 17.5% and improves the accuracy rate about 1.0%(from 95.0% to 96.0%).

본 연구에서는 한국어 품사 태깅에 있어서 기존의 확률 기반 품사 태깅에서 사용하는 품사열 문맥 정보로는 해결할 수 없는 경우(28%)가 있음을 보이고, 이를 보완하기 위해서 의미 정보, 어휘 정보 그리고 통사 정보를 제시했다. 아울러 형태소를 단위로 품사 태깅이 이루어질 경우, 미등록어 주위 형태소들의 관련성을 이용하는 미등록어 추정법도 제시했다. 제시된 새로운 문맥 정보들은 자질 함수라는 형태로 정형화 된 후 학습 말뭉치에서 자동으로 추출되어 최대 엔트로피 모델을 기반으로 해서 합쳐졌다. 사용하는 문맥 정보들의 추가로 인한 형태소 격자 구조의 복잡성은 정규화 과정을 거쳐서 감소 시킴으로써, 경로 검색에 걸리는 시간을 단축하였다. 이렇게 만들어진 품사 태깅 시스템을 실험해 본 결과 품사 태깅의 정확률이 95.0%에서 96.0%로 향상되었고, 17.5%의 오류 감소율을 가져왔다. 이는 기존의 확률 기반 품사 태깅 모델의 대표격인 가중치 망보다 1.1%나 정확률이 높은 결과이다. 본 연구의 결과를 통해 품사 태깅에 유용한 자질이 주어질 경우, 이를 최대 엔트로피 모델을 이용하여 성능 향상을 가져올 수 있음을 알았다. 본 연구에서 제안된 방법을 통하여 품사 태깅에 유용한 자질들을 합칠 수 있기 때문에, 이제는 정보들을 어떻게 결합하는가 보다는 품사 태깅에 도움이 되는 유용한 정보들을 찾는 작업이 중요할 것이다. 향후 과제로 본 연구에서 제안하고 있는 실질어와 실질어간의 공기 정보에서 의미적 연관성이 있는 임의의 단어로 확장이 필요하다. 아울러 정확한 하나의 품사열만을 넘기는 것에서 필요에 따라 혹은 목적에 맞게 복수개의 품사열을 넘기는 방식으로의 변환이 필요하다. 또한 영어에서 품사 태깅에 사용하는 문맥 정보들과 한국어에서 사용하는 문맥 정보들간의 연관성에 대한 연구가 필요하다.

서지기타정보

서지기타정보
청구기호 {MCS 99004
형태사항 [iv], 46 p. : 삽화 ; 26 cm
언어 한국어
일반주기 부록 : A, 한국어 품사 태그
저자명의 영문표기 : In-Ho Kang
지도교수의 한글표기 : 김길창
지도교수의 영문표기 : Gil-Chang Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 참고문헌 : p. 44-45
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서