Currently, there are several RDF (Resource Description Framework) knowledge bases that store facts about entities and community-generated categories of entities. These two types of knowledge may have strong associations; for example, entities categorized in "People from Korea" have a high probability of being born in Korea. Some of such associations can be used for predicting new facts about entities. In this paper, we propose a prediction system that predicts new facts from categories of entities. First, the proposed system uses novel association rule mining (ARM) approach that effectively mines rules that encode associations between facts and categories of entities in RDF knowledge bases. Our extensive experiments show that our novel ARM approach outperforms the state-of-the-art ARM approaches in terms of the prediction quality and coverage of the mined rules. After rules are mined, the proposed system ranks and groups the mined rules based on their predictability by our novel semantic confidence measure calculated with various semantic resources such as WordNet and embedded word vectors. The experiments show that our novel confidence measure outperforms the widely used standard measure in terms of discriminating the predictability of the mined rules. The proposed prediction system selects predictive rules from the mined rules ranked and grouped by their predictability, and then use them to predicts new facts of the high precision from categories of entities. The experiments show that the results of the proposed prediction system are fairly comparable to the results of the state-of-the-art prediction system, but with the high coverage of relations.
지식 베이스는 주로 개체에 대한 사실 정보 및 개체가 속한 카테고리 정보를 포함한다. 예를 들면 디비피디아 지식베이스는 위키피디아에서 추출한 개체에 대한 사실 정보와 개체가 속한 위키피디아 카테고리 정보를 트리플 형식으로 포함하고 있다. 지식베이스 질의응답시스템 또는 개인비서시스템 등등의 응용에서 지능적 일처리의 근본적 중심으로써 유용하게 사용될 수 있다. 대게 응용의 성능은 지식베이스가 포함하는 사실 정보의 질과 양에 큰 영향을 받으며, 개체에 대한 정확한 사실을 많이 포함할수록 성능은 크게 향상될 수 있다. 본 학위논문에서는 개체에 대한 카테고리 정보를 담고 있는 카테고리 트리플을 어떻게 사실 트리플로 전환할 지에 대한 문제를 논의한다. 이 문제를 풀기 위해 연관규칙발견기법을 이용하여 카테고리 트리플과 사실 트리플 간의 의미적 연관을 발견하며 이를 이용해 개체에 대한 카테고리 정보에서부터 사실적 정보를 예측해내는 시스템을 본 논문은 제안한다. 결론적으로, 제안하는 시스템을 이용해 개체가 속한 카테고리에서부터 개체에 대한 높은 정확도의 사실을 풍부히 추출하는데 성공했으며 이를 이용해 지식베이스를 더욱 풍부화할 수 있음을 보였다.