Node classification in graph data is an important problem in graph mining and machine learning, aiming is to predict the accurate label for each node in a graph. However, a major challenge in evaluating the performance of node classification algorithm lies in the label distribution shift between the training data and real data. The performance of node classification algorithm can be affected by label distribution shift, making it difficult to estimate the performance on real data from the training data performance. How can we train a node classification model that is robust to label distribution shift? Node embeddings obtained through graph neural networks have been widely utilized for various tasks, including node classification and link prediction. In this paper, we propose SCC, which uses self-supervised learning to train graph neural networks without label information and performs non-parametric node classification using the learned embeddings. SCC calculates the label probabilities of nodes directly from the node-specific embeddings obtained by self-supervised learning, without the need for additional parameters. This paper demonstrates that SCC exhibits (1) robustness: minimal performance degradation due to label distribution shift, (2) accuracy: achieving performance of 98-113% compared to non-linear node classification models, and (3) non-parametricity: conducting node classification without additional model parameters, as experimentally validated
그래프 형태의 데이터에서 노드 분류는 그래프 마이닝과 머신 러닝에서 중요한 문제 중 하나로, 그래프의 각 노드의 정확한 라벨을 추정하는 것을 목표로 한다. 그렇지만 이러한 노드 분류 알고리즘의 정확한 성능을 검증하는 과정에서 학습 데이터와 실제 데이터 사이의 라벨 분포 변동이 있다는 문제점이 있다. 라벨 분포 변동에 따라 노드 분류 알고리즘의 성능이 바뀐다는 점은 학습시의 성능을 통해 실제 데이터에서의 성능을 유추하기 힘들게 만드는 요인 중 하나이다. 어떻게 하면 라벨 분포 변동에 견고한 노드 분류 모델을 학습할 수 있을까? 그래프 신경망을 통해서 얻은 각 노드별 고유 벡터는 노드 분류 및 간선 예측 등 다양한 세부작업에 널리 활용되고 있다. 본 논문에서는 최근 활발하게 연구되고 있는 자가지도 학습으로 라벨 정보 없이 그래프 신경망을 학습한 후, 이를 이용한 비모수적 노드 분류 작업을 진행하는 SCC를 제안하였다. SCC는 자가지도 학습 방법으로 학습한 그래프 신경망으로 구한 노드 고유 벡터로부터 즉시 노드의 라벨별 확률을 구하는 방법으로, 추가적인 파라미터를 사용하지 않는 노드 분류 알고리즘이다. 본 논문은 SCC가 (1) 견고성 : 라벨 분포 변동에 따른 성능 저하가 적으며 (2) 정확성 : 비선형 노드 분류 모델 대비 98 113%의 성능을 보이며 (3) 비모수성 : 추가 모델 매개변수 없이 노드 분류를 진행할 수 알고리즘임을 실험적으로 증명하였다