서지주요정보
오류-보정 기법을 이용한 어휘 모호성 해소 = Lexical disambiguation with error-driven learning
서명 / 저자 오류-보정 기법을 이용한 어휘 모호성 해소 = Lexical disambiguation with error-driven learning / 김재훈.
발행사항 [대전 : 한국과학기술원, 1996].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8006939

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 96021

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

등록번호

9002942

소장위치/청구기호

서울 학위논문 서가

DCS 96021 c. 2

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This thesis presents a method for resolving morphological ambiguity generated by a morphological analyzer. The method uses error-driven learning in order to extract new rules and tune model parameters, and is composed of two distinctive processes: the morphological ambiguity reduction, which is to make morphological structures reduced while including the correct structure for a given sentence, and the morphological disambiguation(called part-of-speech(POS) tagging in general), which is to find the most proper sequence of POSs for a given sentence. The morphological ambiguity reduction uses two sorts of linguistic knowledge: lexicalized morphotactics and subsumption relations. The lexicalized morphotactics are restrictions on morpheme order represented by not only POS, but also lexical information(i.e. words) closely related with functional words. The subsumption relations on morphological structures are based on word formation such as compounding in Korea. Our experiment shows that the reduction rate is about 54% and 40% for the lexicalized morphotactics and the subsumption relations respectively, and more than 67% in case of their being used together. Such a noticeable reduction rate, however, may not be greatly reflected to the accuracy of POS tagging. We adopt weighted network models such as a hidden Markov model on which several methods are proposed to improve the accuracy. Weights on the network can be estimated with fuzzy membership functions or conditional probabilities of previous POS. The network estimated with fuzzy membership functions is called a fuzzy network model, and with conditional probabilities a hidden Markov model. The experiment reveals that the fuzzy network model is suitable for small training data and the hidden Markov model for large training data. In the hidden Markov model, several types of errors still remains to be considered in spite of large amount of training data. The errors can be classified roughly into estimation errors caused by the inappropriate estimation methods such as relative frequency, and modeling errors caused by the lack of enough knowledge for POS tagging. To minimize the estimation errors, a new discriminative learning method is proposed to tune model parameters. To reduce the modeling errors, two types of knowledge are considered as contextual information. One is multi-words, the other is error-correction rules. A multi-word is two or more consecutive words that always play the same role in a sentence. Error-correction rules are to correct trifle errors that is often made by the hidden Markov model. Our experiment shows that all the proposed methods in total reduce the error rate by about 28.2% and improve the accuracy rate by about 1.1% (from 96.4% to 97.5%).

본 논문은 오류-보정 기법을 이용해서 형태소 해석에서 발생되는 형태적 모호성을 해결하기 위한 방법을 제안한다. 형태적 모호성을 효과적으로 해결하기 위해서 형태적 모호성 축소 및 해소 과정으로 나누어 처리된다. 형태적 모호성 축소는 항상 올바른 형태소 해석 결과를 포함하면서 형태적 모호성을 줄이는 과정이고, 형태적 모호성 해소(품사 태깅)는 형태소 해석 결과 중에서 주어진 문장에 가장 적절한 하나의 해석을 찾는 과정이다. 형태적 모호성 축소 과정에서는 어휘화된 배열규칙과 형태소 해석 사이의 포섭관계를 이용한다. 전자는 기능어(functional words)에 속하는 단어를 형태소 배열규칙에 포함시켜서 불필요한 해석을 줄이고자 하는 방법이다. 후자는 형태소 해석들 사이에서 언어적인 관계, 즉, 복합어 관계를 이용해서 불필요한 해석을 줄이고자 하는 방법이다. 어휘화된 배열규칙과 포섭관계를 이용했을 때, 각각 54%와 40%의 형태적 모호성이 감소되었다. 이들 정보를 모두 사용했을 경우에는 약 67%의 오류가 감소되었다. 형태적 모호성 축소 후에도 여전히 형태적 모호성이 존재한다. 이와 같은 모호성을 완전히 해소하기 위해서 형태적 모호성 해소, 즉, 품사 태깅 과정을 거친다. 본 논문에서의 품사 태깅은 가중치 망 모델을 기반으로 한다. 이때, 가중치는 퍼지소속함수나 조건확률을 이용한다. 퍼지소속함수를 이용하는 퍼지망 모델은 학습 말뭉치의 양이 충분치 못할 경우에 적합하고, 조건확률을 이용하는 은닉마르코프 모델은 학습 말뭉치의 양이 충분할 경우에 적합함을 알 수 있었다. 그러나, 학습 말뭉치의 양이 충분하더라도 품사 태깅 시스템은 여전히 오류를 오 지고 있다. 이와 같은 문제는 크게 부적합한 매개변수 추정 방법과 어휘 문맥정보의 부족에 기인된다. 전자를 개선하기 위해서 본 논문에서는 분별학습 방법을 매개변수 추정에 이용하였다. 후자를 개선하기 위해서 본 논문에서는 다중단어의 개념을 가중치 망 모델에 포함할 수 있도록 하는 방법과 가중치 망 모델에서 자주 오류를 범하는 환경에 대해서 오류를 수정할 수 있는 오류 수정 규칙을 이용하였다. 이와 같은 방법으로 약 1.1% ($96.4% →97.5%$)의 정확률이 상승되었으며, 약 28%의 오류가 감소되었다.

서지기타정보

서지기타정보
청구기호 {DCS 96021
형태사항 xvii, 135 p. : 삽화 ; 26 cm
언어 한국어
일반주기 부록 : A, 품사태그. - B, 다중단어의 품사태깅을 위한 으닉 마르코프 모델
저자명의 영문표기 : Jae-Hoon Kim
지도교수의 한글표기 : 김길창
공동교수의 한글표기 : 양승택
지도교수의 영문표기 : Gil-Chang Kim
공동교수의 영문표기 : Seung-Taik Yang
수록 잡지명 : "Estimating Memberchip Functions in a Fuzzy Network Model for Part-of-Speech Tagging". Journal of Intelligent & Fuzzy Systems. John Wiley & Sons, Inc.
수록 잡지명 : "Fuzzy Network Model for Part-of-Speech Tagging under Small Training Data". Natural Language Engineering. Cambridge University Press
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 참고문헌 : p. 112-121
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서