Many real-world data are relational. Examples include collaborations of researchers, network traffic, and online social interactions. These relational data are modeled in multiple forms such as graphs, tensors, and hypergraphs. Recently, representation learning on relational data has drawn a lot of attention due to its superiority in various machine learning tasks. Representation learning embeds entities (e.g., users, items, vertices, and relationships) into a low-dimensional vector space, which is meaningful and useful for various purposes, by preserving their relational and context information. For example, tensor decomposition extracts the underlying latent structure of a given tensor into a low-dimensional vector space. Also, (hyper)graph neural networks extract low-dimensional vectors for nodes and (hyper)edges of a given (hyper)graph.
Many studies on representation learning have shown state-of-the-art performance on clean and refined data. However, real-world relational data may often be incomplete and thus have missing observations due to unintended problems. At the same time, they are easily corrupted by natural or adversarial outliers due to unpredicted events during data collection. Although recent representation learning models have demonstrated their superiority, many approaches are vulnerable to such noise. Given noisy relational data, how can we design the representation learning approaches robustly?
This thesis focuses on developing robust unsupervised representation learning models for three target scenarios in order from simple to complex: (1) a robust linear model against random noise, (2) a robust non-linear model against random noise, and (3) a robust non-linear model against adversarial noise.
First, we propose a robust linear representation model against random noise (e.g., data input corruption). Specifically, we develop a robust tensor factorization method that integrates tensor factorization, outlier removal, and temporal-pattern detection smoothly and tightly. This method is designed to handle tensor streams and is able to impute missing entries, detect outliers, and predict future entries accurately in an online manner. Second, we propose a robust non-linear representation model against random noise (e.g., data input and label corruption). In particular, we develop a hypergraph contrastive learning approach that exploits a novel contrastive loss that fully utilizes the constituents in hypergraphs (i.e., nodes, hyperedges, and memberships). We demonstrate the robustness of this method under various noisy situations. Lastly, we propose a robust non-linear representation model against adversarial noise (a.k.a. adversarial attack). Especially, we introduce a way to make the temporal graph neural networks robust to noisy interactions (i.e., edge streams). To verify its robustness under a harsh environment, we also propose a simple and effective adversarial attack, which generates more detrimental noise than randomly generated noise.
많은 실제 데이터는 관계형 데이터이다. 연구자의 협업, 네트워크 트래픽, 온라인 소셜 상호작용 등이 그 예시이다. 이러한 관계형 데이터는 그래프, 텐서, 하이퍼그래프 등 다양한 형태로 모델링 된다. 최근에는 관계형 데이터에 대한 표현 학습이 다양한 머신러닝 과제를 해결하는 데 우수하다는 것이 수많은 연구들로 확인되었고, 이로 인해 많은 주목을 받고 있다. 표현 학습은 개체(예: 사용자, 항목, 정점 및 관계)를 저차원 벡터 공간에 전사시키는 방법으로, 데이터가 가지고 있는 핵심적인 관계형 및 컨텍스트 정보를 추출하여 다양한 작업에 유용하게 사용할 수 있다. 예를 들어, 텐서 분해는 주어진 텐서의 기본 잠재 구조를 저차원 벡터 공간으로 추출한다. 또한 (하이퍼)그래프 신경망은 주어진 (하이퍼)그래프의 노드와 (하이퍼)에지에 대한 저차원 벡터를 추출한다.
표현 학습에 관한 많은 연구는 노이즈가 없고 정제된 데이터에 대해 최첨단의 성능을 보여주었다. 그러나 실제 관계형 데이터는 종종 불완전하여 의도하지 않은 문제로 인해 관측 값이 누락될 수 있다. 동시에 데이터 수집 중 예측하지 못한 사건으로 인해 자연적 또는 적대적 이상치에 의해 쉽게 손상될 수 있다. 최근 표현 학습 모델이 그 우수성을 입증했지만, 많은 접근 방식은 이러한 노이즈에 취약하다. 노이즈에 오염된 관계형 데이터가 주어졌을 때 노이즈에 강건한 표현 학습 방식을 어떻게 설계할 수 있을까?
본 학위논문은 목표는 단순한 것부터 복잡한 것까지 세 가지 시나리오에 대한 강건한 비지도 표현 학습 방식을 개발하는 것이다. 구체적으로 (1) 무작위 노이즈가 있는 상황에서 강건한 선형 모델, (2) 무작위 노이즈가 있는 상황에서 강건한 비선형 모델, (3) 적대적 노이즈가 있는 상황에서 강건한 비선형 모델을 개발하는 것이다.
먼저, 무작위 노이즈(예: 데이터 입력 손상) 하에서 강건한 선형 표현 모델을 제안한다. 구체적으로, 텐서 분해, 이상치 제거 및 시간 패턴 감지를 원활하고 긴밀하게 통합하는 강력한 텐서 분해 방법을 개발하였다. 이 방법은 텐서 스트림을 처리하도록 설계되었으며 누락된 항목을 대치하고 이상 값을 감지하며 온라인 방식으로 향후 수신될 데이터를 정확하게 예측할 수 있다. 둘째, 무작위 노이즈(예: 데이터 입력 및 라벨 손상) 하에서 강력한 비선형 표현 모델을 제안한다. 특히, 하이퍼그래프의 구성 요소(예: 노드, 하이퍼에지 및 멤버십)를 완전히 활용하는 새로운 대조 손실을 활용하는 하이퍼그래프 대조 학습 방식을 개발하였다. 또한 다양한 노이즈 상황에서 이 방법의 견고성을 검증하였다. 마지막으로 적대적 노이즈(즉, 적대적 공격) 하에서 강력한 비선형 표현 모델을 제안한다. 특히, 시간 그래프 신경망을 노이즈 상호 작용(즉, 에지 스트림)에 강력하게 만드는 방법을 개발하였다. 더 열악한 환경에서의 견고성을 검증하기 위해 무작위로 생성되는 노이즈보다 더 치명적인 노이즈를 생성하는 간단하고 효과적인 적대적 공격방법도 제안한다.