Single-cell RNA sequencing (scRNA-seq) enables researchers to study cellular heterogeneity at single-cell level. To this end, identifying subgroups of cells with clustering techniques becomes an important task for downstream analysis. However, challenges of scRNA-seq data such as pervasive dropout phenomena hinder obtaining robust clustering outputs. Although existing studies try to alleviate these problems, they fall short of fully leveraging the relationship information and mainly rely on reconstruction-based losses that highly depend on the data quality, which is sometimes noisy. This work proposes a graph-based prototypical contrastive learning method, named scGPCL. Specifically, scGPCL encodes the cell representations using Graph Neural Networks on cell-gene graph that captures the relational information inherent in scRNA-seq data and introduces prototypical contrastive learning to learn cell representations by pushing apart semantically dissimilar pairs and pulling together similar ones. Through extensive experiments on both simulated and real scRNA-seq data, we demonstrate the effectiveness and efficiency of scGPCL.
단일 세포 시퀀싱은 연구자들이 개별 세포의 이질성을 연구할 수 있도록 도와주었다. 이를 위하여, 군집화 기술을 이용하여 세포들의 하위그룹을 식별하는 것은 향후 추가적인 분석을 위한 중요한 과제가 되었다. 그러나 만연한 드롭아웃 현상과 같은 단일 세포 시퀀싱 데이터의 문제는 강건한 군집화 결과를 얻는 것을 힘들게한다. 기존 연구들은 이러한 문제를 완화하려고 노력했지만, 관계 정보를 완전히 활용하지 못하고 잡음이 많은 데이터에 의존하는 재구성 기반 손실 함수를 주로 활용하였다. 이 연구에서는 scGPCL이라는 그래프 기반 프로토타입 대조 학습 방법을 제안한다. 구체적으로, scGPCL은 데이터내에 내재된 관계 정보를 잡아내고 프로토타입 대조 학습을 도입하여 의미적으로 다른 쌍을 밀어내고 유사한 쌍을 당겨 세포의 표상을 학습하는 방식을 활용하여 세포의 포상을 인코딩하였다. 시뮬레이션 데이터 및 실제 데이터를 활용한 광범위한 실험을 통해 scGPCL의 효과와 효율성을 입증 하였다.