Relation Extraction means that generating structured information by detecting entities and identifying relations from text. This paper followed distant supervision ap- proach, which takes existing knowledge base and large-size of text as an input data, gen- erates automatically labeled data, so called distantly labeled data, and learns patterns of the relations between entities from it. Intuitively, the distantly labeled data has a lot of noise, but this paper concentrated on improving the quality of the distantly labeled data, increased the performance of the relation extraction, and finally populated the knowledge base.
관계 추출(Relation Extraction)은 자연어 텍스트로부터 자연어 개체(Entity)를 찾아내고 그들간의 관계(Relation)을 파악하여 기계가 해석 가능한 구조적 정보를 만들어 내는 것을 의미한다. 본 논문은 현존하는 지식베이스와 대량의 텍스트 자원을 이용하는 원격지도(Distant Supervision) 접근법을 이용하여, 자동으로 생성한 주석데이터로부터 두 개체간의 관계에 대한 패턴을 학습하고 이를 바탕으로 주어진 문장으로부터 구조적 정보를 생성하는 관계 추출 시스템을 고안하였다. 이때 자동으로 생성한 주석데이터, 즉 원격 주석데이터는 상당한 노이즈를 지니게 되는데, 본 논문은 원격주석데이터의 품질 향상에 집중하여 관계 추출을 위한 패턴 학습을 용이하게 하였으며, 최종적으로 관계 추출 성능을 향상시키고 지식베이스 증강을 실현하였다.