Natural language parsing is a central component to many natural language processing tasks. Since a natural language has inherently structural ambiguities, one of the difficulties of parsing is resolving the structural ambiguities. The ambiguities arise whenever a sentence can be interpreted in more than one way. Recently, a probabilistic approach to tackle this disambiguation problem has received considerable attention because it has some attractions such as automatic learning, wide-coverage, and robustness. Many probabilistic parsing models have been developed for the past few years, and they are mainly for English not Korean. In this thesis, we focus on Korean syntax and a probabilistic parsing model for Korean.
We investigate two problems: representing Korean syntax, and building a language model for Korean syntax. The representation of a language is to describe the structure of the language, and it is the direct reflection of the features of the language. A language model is a probability distribution P(S) over string S that attempts to reflect how frequently a string S occurs as a sentence. The claim of this thesis is that syntax of Korean in fact can be represented more efficiently using a grammar representation scheme that exploits the characteristics of Korean. Also, we argue that the consideration of the language specific features can produce a more accurate natural language parser than one without such consideration. These claims are justified by constructing a parser for Korean based on the specific properties of the Korean structures, and comparing its performance to a state-of-the-art parser for English on a common task.
The representation scheme of the syntactic structures is a specification about the kind of the knowledge to bel used and the form of the knowledge to be annotated. Korean has different structural properties from English, for example, the word composition as well as the word order in a sentence. In addition. English is more of less fixed word order language, while Korean is partially free word order. It can be easily said that a representation scheme of the syntactic structures for English will not be apt to Korean. We propose a new representation scheme for Korean, which emphasizes the structural properties of Korean.
A probabilistic language model has direct relation with the syntactic representation which the model handles. Furthermore, the language model has to encode the language specific properties to improve the performance of the parser based on it. Hence a probabilistic parsing model cannot be completely independent of the representation of the syntactic structure nor the properties of the language that the model is concerned on. We build the probabilistic Korean parser which reflects the language specific properties, such as the strong tendency of topicalization, and the freedom of the word order. Experiments show that the accuracy of the parser based on the model proposed in this thesis is higher than that of state-of-the art parsers proposed for English on the Korean texts.
구문 분석은 자연언어 처리 응용 시스템의 주요 요소 중의 하나이다. 자연언어는 근본적으로 구조적 중의성을 안고 있기 때문에 구문 분석시 발생하는 어려움 중의 하나는 이러한 구조적 중의성을 해결하는 것이다. 중의성은 문장이 하나 이상으로 분석될 때 발생한다. 확률적 접근 방식은 자동 학습, 견고성과 같은 장점을 지니고 있기 때문에, 최근에는 확률적 방법으로 이러한 중의성 해결 문제를 접근하고자 하는 시도들이 각광을 받고있다. 지난 몇 년 사이에 많은 확률 구문 분석 모델들이 개발되어 왔는데, 이러한 대부분은 한국어를 대상으로 한 것이 아니라, 주로 영어를 대상으로 수행되었다.
본 논문에서는 주로 두 가지의 문제를 다루고자 한다. 첫째는 한국어 구문을 표현하는 방법에 대한 문제로서, 언어의 구문 구조를 표현하는 것은 그 언어의 특성이 직접 반영되어야 한다. 둘째는 한국어 구문을 위한 언어 모형을 설계하는 작업이다. 언어 모형은 입력 문장 S에 대해, 그 문장이 실제로 어느 정도 발생하는가를 반영하는 확률 분포 P(S)를 의미한다. 본 논문에서는 한국어 구문이 한국어의 특성을 반영한 문법 표현 방법을 이용하여 더 효율적으로 표현될 수 있음을 언급한다. 또한, 언어 고유의 특성에 대한 반영은 그러한 고려 없이 개발되어진 구문 분석기보다 더 성능이 우수한 구문 분석기를 개발할 수 있다. 이러한 주장을 한국어의 고유 특성을 반영한 한국어 구문 분석기를 개발하고, 이의 성능을 영어권의 구문 분석기와 비교해 봄으로써 입증하고자 한다.
구문 구조의 표현 방법은 구문 구조를 표현하는데 사용되어지는 지식의 종류와 그 지식의 형태에 대한 정의를 의미한다. 한국어는 영어와는 다른 구조적 특성을 지니고 있다. 예를 들어, 단어 구성 방법이나 문장에서의 단어의 문법적 역할 등이 이에 해당한다. 또한, 영어는 다소 고정 어순의 언어인데 비해, 한국어는 부분 자유 어순의 언어이다. 그렇기 때문에, 영어를 위한 구문 구조 표현 방법은 한국어에 부적합함을 쉽게 알 수 있다. 본 논문에서는 한국어 구문 구조 표현에서 고려되어야 할 한국어의 언어적 특성을 정의하고, 이의 특성을 잘 반영할 수 있는 새로운 구문 구조의 표현 방법을 제안한다.
언어 모형은 그 모델이 기반으로 하는 구문 표현 방법과 직접적인 관계를 갖고 있다. 또한, 언어 모형은 그것을 기반으로 하는 구문 분석기의 성능을 향상시키기 위하여 대상언어의 고유한 특성을 반영하고 있어야 한다. 그러므로, 언어 모형은 구문 구조의 표현 방법이나 그 언어 모형이 대상으로 하는 언어 고유의 특성과 완전히 독립적일 수 없다. 본 논문에서는 주제어의 우세, 자유 어순과 같은 한국어 고유의 구조적 특성을 찾아내고, 이를 반영한 한국어의 확률적 구문 분석기를 개발한다. 실험을 통해서, 본 논문에서 제안한 언어 모형이 현재의 영어권의 확률 모델에 비해서 한국어 문장들에 대해 더 좋은 성능을 발휘함을 보인다.