In natural language, it is common that repetitive constituents in an expression are to be left out and it is necessary to figure out the constituents omitted to analyze the meaning of the sentence. This thesis addresses a model to detect the boundaries of parallel noun phrases by figuring out constituents omitted. Parallelism boundary detection can greatly reduce complexity and ambiguity at parsing sentences. Moreover, in natural language information retrieval, recognition of noun with modifiers can play an important role in making indexes.
We propose a probabilistic model that identifies parallel cores as well as boundaries of parallel noun phrases conjoined by a conjunctive particle. It is based on the idea of swapping constituents, utilizing symmetry (two or more identical constituents are repeated) and reversibility (the order of constituents is changeable) in parallel structure. In addition, semantic features of the modifiers around parallel noun phrase are utilized to compliment the probabilistic model.
The model proposed is unsupervised and language-independent. Our model, moreover, is not dependent on a language. After range detection, we use modification information for range adaptation. Range modification is needed, because some sentences have same pattern but different analysis. We propose another model for range modification by using modification information. We show our experiments of range detection of parallel noun phrase with Wa/Kwa particle and compare our results with various model's.
자연언어 처리에서 중복되는 표현의 생략은 자주 일어난다. 본 논문은 이러한 생략이 일어났을 경우를 포함하여 병렬범위를 탐지하는 방법을 제안한다. 병렬범위 탐지는 구문분석의 시간복잡도를 줄여줄 수 있고, 자연언어검색의 경우 사용자의 의도를 보다 명확하게 색인할 수 있다.
제안하는 방법은 병력핵을 확률적으로 찾아내서 병렬구조의 범위를 밝혀낸다. 병렬구조의 대칭성과 교호성을 이용한다. 대칭성은 같은 구조가 반복된다는 것이고, 교호성은 좌우 구성요소를 교환해도 같은 의미를 지닌다는 것이다. 일반적으로 병렬구조는 대칭성을 따르지만, 수식어의 성질에 따라서 한쪽만을 수식하는 비대칭적인 구조가 출현하기도 한다. 이를 해결하기 위해 비대칭 병렬구조 해석에 도움을 주는 통계정보를 추출한다. 수식관계에 대한 통계정보를 사용할 모형을 제안한다.
제안한 모형은 비지도식이며 언어 비의존적이다. 와/과 조사로 이루어진 명사구 병렬구조를 탐지하고 수식정보로 적합한 범위를 찾아낸다. 그 결과를 다양한 모형과 비교해 본다.