Link prediction is a crucial study used for various applications targeted at a graph. Traditional researches were conducted on homogeneous information networks which have unique node type and link type. However, most of data in real world are usually represented as heterogeneous information networks (HINs) which have one more than node types or link types. Therefore, link prediction in heterogeneous information networks is a critical issue in graph analysis. Since HIN contains one more than node types, it is hard to find features which are strongly related to link existence. Furthermore, link prediction in a large-scale HIN often results in a biased learning model because of imbalanced class. In this paper, we define new features between nodes in HIN and propose methods using it. Therefore, we propose effective features, t-connected common neighbors, residual neighbors and undersampling $\beta$ . In addition to this, we construct a proper supervised learning model for predicting links based on proposed features. In the experimental results, we show that our proposed method performs well by a proper evaluation metric.
링크 예측은 그래프를 대상으로 하는 다양한 어플리케이션에 적용되는 주요한 기술이다. 링크 예측의 기존 연구들은 노드 및 링크 타입이 하나인 동질형 정보 네트워크를 대상으로 한다. 하지만, 실제 어플리케이션은 다수의 노드 타입과 다수의 링크 타입이 존재하는 이질형 정보 네트워크가 대다수이다. 그러므로 이질형 정보 네트워크의 링크 예측은 중요한 이슈이다. 이질형 정보 네트워크에는 동질형 정보 네트워크와 달리 다수의 노드 타입이 존재하므로 링크 유무와 관련이 높은 특성을 찾기 어렵다. 대량의 네트워크를 대상으로 하는 링크 예측은 지도 모델 학습 과정에서 클래스 불균형으로 편향된 모델이 구축될 수 있다. 본 논문에서는 이질형 정보 네트워크에서 링크 유무와 관련이 높은 새로운 특성을 정의하고 이를 이용한 링크 예측 방법을 제안한다. 이를 위해, t-연결 공동 이웃, 잔여 이웃을 제안한다. 그리고 이를 바탕으로 지도 학습 기반의 올바른 모델을 구축하여 링크를 예측한다. 실험에서 적절한 평가 지표를 사용하여 본 연구의 우수성을 검증하였다.