Data scarcity is a major stumbling block in relation extraction. We propose an unsupervised pre-training method for extracting relational information from a huge amount of unlabeled data prior to supervised learning in the situation where hard to make golden labeled data. An objective function not requiring any labeled data is used during the pre-training phase, with an attempt to predict clue words crucial for inferring semantic relation types between two entities in a given sentence. The experimental result on public datasets shows that our approach is effective in a data-scarce setting.
관계 추출에서는 모델 학습을 위한 데이터의 부족은 큰 문제이다. 우리는 적은 데이터를 이용한 지도 학습에 앞서, 제안하는 비지도 학습을 이용함으로써 엄청난 양의 원시 텍스트 데이터로부터 관계 정보를 추출하여 활용하였다. 이러한 비지도 학습을 위해 우리는 관계를 분류하는 대신 문장의 관계 정보가 담긴 핵심 단어를 예측하는 다른 목적 함수를 제안하였다. 여러 공개 데이터셋에서의 평가 결과에서 제안하는 방법론이 데이터가 부족한 상황에서의 관계 추출 성능을 높이는 것으로 드러났다.