How to complete knowledge is one of the most important issue of knowledge bases, because of their large size and sparsity. To complete the knowledge bases, we need a model that can predict undefined relationships between entities. TransE has been a promising method to complete knowledge bases by using a translation concept, and improved approaches has been proposed based on TransE. However, these models common issue that they do not actually represent translation, and it causes lower performances. Here we propose a new embedding method, TTE which makes the translation concept better use. TTE uses a new objective function, which can learn translation relationships between entities and relations. TTE outperforms previous translation based approaches in a link prediction task on two knowledge bases without increasing the number of parameters. Another characteristic of knowledge bases is that they do not contain false samples. Traditional approaches of negative sampling regard randomly sampled knowledge as false. However, randomly sampled knowledge can contain true knowledge, which does not belong to dataset, and these knowledge lower the performances. In this thesis, we propose a new way to do negative sampling by using pretrained word embeddings.
지식 베이스는 방대한 데이터의 양과 높은 희박함을 특징으로 가지며, 지식 베이스의 완성은 지식 베이스와 관련된 가장 중요한 연구 주제들 중 하나이다. 지식 베이스 완성이란 지식 요소들 간의 정의되지 않은 관계의 예측이다. TransE 모델은 지식을 벡터 간 트랜슬레이션 관계로 정의한다. 기존의 트랜슬레이션 관계에 기반한 모델들은 트랜슬레이션을 정확히 표현하지 않으며, 이는 성능의 저하로 이어진다. 본 학위 논문에서는 트랜슬레이션 관계를 보다 정확히 표현하는 목적 함수를 갖는 TTE 모델을 제안한다. 지식 베이스의 또 다른 특징은 거짓 지식이 데이터에 포함되지 않는다는 것이다. 기존에는 학습 데이터 외의 랜덤한 조합을 거짓 지식으로 가정하고 이용하였다. 랜덤한 조합의 경우는 지식 베이스에 포함되지 않은 참 지식이 포함되며, 이를 거짓 지식으로 사용하는 것은 성능 저하로 이어진다. 본 학위 논문에서는 미리 학습된 단어 임베딩을 이용하여 필요한 거짓 지식 데이터를 만드는 방법을 제안한다.