Misinformation spreads across media, community, and knowledge graphs in the Web by not only human agents but also information extraction systems that automatically extract factual statements from unstructured textual data to populate existing knowledge graphs. Traditional fact checking by experts is increasingly difficult to keep pace with the volume of newly created information in the Web. Therefore, it is important and necessary to enhance the computational ability to determine whether a given factual statement is truthful or not. In this thesis, our goal is to 1) mine weighted logical rules from a knowledge graph, 2) to find positive and negative evidential paths in a knowledge graph for a given factual statement by the mined rules, and 3) to calculate a truth score for a given statement by an unsupervised ensemble of the found evidential paths. For example, we can determine the statement “The United States is the birth place of Barack Obama” as truthful since there is the positive evidential path (Barack Obama, birthPlace, Hawaii) ∧ (Hawaii, country, United States) in a knowledge graph, and it is logically consistent with the given statement. On the contrary, we can determine the factual statement “Canada is the nationality of Barack Obama” as untruthful since there is the negative evidential path (Barack Obama, birthPlace, Hawaii) ∧ (Hawaii, country, United States) ∧ (United States, ≠, Canada) in a knowledge graph, and it is logically contradictory to the given statement. For evaluation, we constructed a novel evaluation dataset by labeling true or false labels on the factual statements extracted from Wikipedia texts by the state-of-the-art BERT-based relation extractor. Our evaluation results show that our logical consistency-based approach outperforms the state-of-the-art unsupervised approaches significantly by up to 0.12 AUC-ROC, and even outperforms the supervised approach by up to 0.05 AUC-ROC not only in our dataset but also in the two publicly available datasets.
최근 지식그래프를 확장할 목적으로 텍스트에 기술된 사실을 사실 트리플 형태로 추출하는 정보 추출 시스템이 활발히 연구되고 있고, 동시에 정보 추출 시스템에 의해서 잘못 추출된 거짓 사실 트리플이 지식 그래프를 확장함에 있어 정확도를 떨어뜨리는 문제가 떠오르고 있다. 전통적인 방식의 전문가 개입 사실 검증은 새로운 정보의 증가 규모와 속도를 따라잡기 어려운 상황에 있고, 이에 따라 주어진 사실 트리플이 얼마나 진실 또는 거짓에 가까운지 평가하는 자동화 계산 능력의 필요성이 중요해지고 있다. 본 학위논문에서의 목적은 1) 지식그래프에서부터 가중 논리 규칙을 학습하고, 2) 학습한 규칙을 이용해서 검증할 사실 트리플과 지식그래프에 있는 기존 사실 트리플과의 논리적 일관성을 검사함으로써 3) 검증할 사실 트리플의 진위 정도를 측정하는데 있다. 예를 들어서, 사실 트리플 (박지성, birthPlace, 대한민국)을 검증하고자 할 때, 지식그래프에 있는 기존 사실 트리플인 (박지성,birthPlace,서울) ∧ (서울,country,대한민국)과 논리적으로 일관되기 때문에 검증할 트리플이 사실에 가깝다는 결론을 내릴 수 있다. 이와는 반대로, 사실 트리플 (박지성, birthPlace, 영국)을 검증하고자 할 때, 지식그래프에 있는 기존 사실 트리플인 (박지성, birthPlace, 서울) ∧ (서울, country, 대한민국) ∧ (대한민국,≠,영국)과 논리적으로 모순되기 때문에 검증할 트리플이 거짓에 가깝다는 결론을 내릴 수 있다. 본 논문에서는 최신 BERT 기반 관계 추출기를 이용해서 한국어 위키피디아 텍스트에서 추출한 사실 트리플에 대해 사실 또는 거짓 태그를 주석해서 새로운 평가 데이터를 구축했다. 본 논문에서 구축한 평가 데이터와 공개적으로 이용 가능한 두 가지 평가 데이터에서 평가한 결과, 본 학위논문에서 제안하는 논리적 일관성에 기반한 사실 검증 방법이 통계적 측정법에 기반한 최신 비지도 학습 방법 대비 최대 12.68%, 지도 학습 방법 대비 최대 5.57% 더 나은 효과를 보였다.