Graph neural networks(GNNs) are becoming the standard for solving a variety of tasks on graph data. Graph data represents the connection information between nodes and node information in the form of node features. In the process of the message-passing mechanism, the hidden nodes representation of each layer is updated from initial node features. The importance of node features in GNNs has been demonstrated in various research, but obtaining complete and accurate node features in real-world cases can be difficult. Thus, there remains a need for an efficient method that can maintain the performance of GNNs in the sparsity of node features. In this paper, we proposed a feature augmentation method based on node similarity. First, to measure node similarity, we define the node mutual information in a graph. Next, based on this node similarity, features are augmented without training another model to estimate node features. We perform experiments on two downstream tasks on five real-world datasets, and the results demonstrate the effectiveness of our method in both link prediction and node classification.
그래프 신경망은 그래프 데이터의 여러 가지 문제를 해결하는 표준이 되어가고 있다. 그래프 데이터는 두 정점간의 연결 정보와 정점의 정보를 정점 특징의 형태로 표현한다. 그래프 신경망의 메세지 전달 과정에서 각 층의 은닉 정점 정보는 초기 정점 특징으로부터 학습되어진다. 또한, 많은 연구들이 그래프 신경망에서의 초기 정점 특징의 중요성을 강조하고 있다. 하지만, 현실 세계에서 정점의 특징 정보를 얻는 것은 쉽지 않을 뿐만 아니라, 특징 정보가 사용 가능해도 완전하지 않은 경우가 대다수이다. 따라서 정점 특징의 희소성에서 그래프 신경망의 성능을 유지할 수 있는 효율적인 방법이 여전히 필요하다. 본 논문에서 우리는 정점 유사도 기반의 특징 증강 방법을 제안한다. 먼저, 정점 유사도를 측정하기 위해 그래프 상에서 정점 간의 상호정보량을 정의하였다. 다음으로 정점 상호정보량을 정점 유사성으로 정의하여 이를 기반으로 정점 특징 증강을 제안한다. 이 방법은 정점 특징을 추정하기 위해 다른 모델을 훈련하지 않는다. 우리의 방법을 검증하기 위해 5개의 현실 세계 데이터 세트에 대해 2개의 다운스트림 작업, 간선 예측 및 정점 분류에 대한 실험을 수행하였다. 실험 결과는 간선 예측 및 정점 분류 모두에서 우리의 방법의 효과를 보여준다.