Automatic extraction of spatial information about events from text plays an important role not only in the semantic interpretation of events but also in many location-based applications such as infectious disease surveillance and natural disaster monitoring. However, the fundamental limitation of previous work is the limited scope of extraction that only targets at information that is explicitly stated through predicate-argument structures. This leads to missing a lot of implicit information inferable from context in a document, which amounts to nearly 40% of the entire location information.
To overcome this limitation, we present in this dissertation an approach to recognizing the document-level relationship between events and their locations, aiming specifically at identifying an expression in text that best indicates where a given event occurs. We present a two-step approach to this problem: First, we design an annotation framework to construct a corpus annotated with the associations between event mentions and location expressions in news articles. Based on the corpus annotation and analysis, we hypothesize that coherent narratives such as news articles usually mention a series of events that occur together in a similar location. Second, we present an inference system that recognizes the associations from a given document based on this hypothesis. The system employs a multi-pass architecture where locally captured, more precise information is propagated to neighboring events through particular context. We exploit distributional similarities as key contextual information in this architecture to assess how similar two events are.
The results of experiments on the annotated corpus demonstrate that the multi-pass architecture with distributional similarities is reasonably capable of capturing the document-level associations between events and locations, especially when compared with several baseline systems. The results also show that considering multiple types of event components together in modeling event similarities leads to better understanding of spatial relatedness of two events than just a single type of component. Our system achieves good performance for this challenging task, which is around F1-scores of 0.50 across different settings, considering that general state-of-the-art systems for extracting spatiotemporal relations and document-level event relations show a similar level of performance. We believe that the proposed corpus and system have a good potential not only to benefit many downstream NLP tasks that involve a spatial analysis of events, but also to improve the quality of location-based applications that exploit textual documents.
텍스트 내 사건에 대한 공간 정보의 추출은 사건의 의미 해석뿐만 아니라 질병 관리 및 자연 재해 탐지와 같은 위치 기반 응용 서비스에서 중요한 역할을 담당한다. 그러나 이와 관련한 기존 연구는 공간 정보를 추출하는 과정에서 술어-논항 구조를 통해 명시적으로 언급된 정보만을 대상으로 한다는 근본적인 한계를 보이고 있다. 이는 문서 내에 언급된 전체 공간 정보 중 약 40%에 달하는, 문맥을 통해 추론 가능한 공간 정보를 파악하지 못하는 결과로 이어진다.
본 논문에서는 이러한 문제를 해결하기 위해 문서 수준에서 사건과 위치 간의 관계를 파악하는 방법을 제안하며, 구체적으로는 주어진 사건에 대하여 그것의 위치를 가장 잘 설명하는 표현을 문서 내에서 올바르게 찾는 것을 목표로 한다. 이를 위해 두 단계의 접근 방법을 이용한다. 첫째, 뉴스 기사 내에 언급된 사건과 위치 표현 간의 관계를 주석하기 위한 주석 프레임워크를 제안하고, 이를 통해 해당 관계 정보를 주석한 말뭉치를 구축한다. 또한 말뭉치 주석 및 분석 과정을 통해, 뉴스 기사와 같은 일관된 이야기를 가진 텍스트에서는 유사한 위치에서 발생하는 일련의 사건이 동시에 언급된다는 가설을 제시한다. 둘째, 이러한 가설에 기반하여 문서로부터 사건과 위치 간 관계를 자동으로 추론하는 시스템을 제안한다. 해당 시스템은 국소적으로 파악된 정확한 정보를 특정 문맥을 통해 주변 사건으로 전파하는 다단계 처리 구조를 통해 구현한다. 특히 두 사건의 공간적 관련성을 측정하는 과정에서 분포 유사성을 핵심 문맥 정보로 활용한다.
주석된 말뭉치를 통해 실험을 수행한 결과, 분포 유사성을 활용한 다단계 처리 구조가 기준 시스템에 비해 문서 수준의 사건-위치 관계를 보다 더 효과적으로 파악하는 것으로 드러났다. 또한 사건 간 공간적 관련성을 파악하는 데 있어서, 다양한 유형의 사건 구성 요소를 동시에 고려하는 것이 한 가지 요소만을 고려하는 것보다 더 이로움을 확인하였다. 본 논문에서 제안한 시스템은 약 50%의 관계 추출 평균 성능을 보였으며, 이는 사건의 시공간 관계 분석 및 문서 수준의 관계 추출에 관한 최근 연구에서 보고된 성능과 유사한 수준에 해당함을 확인하였다. 본 연구 결과는 사건의 공간적 분석과 관련한 자연언어처리 분야의 다양한 연구 및 텍스트 문서를 활용하는 위치 기반 응용 서비스에 유용하게 활용될 것으로 기대한다.