Federated learning is a privacy-preserving framework for training machine learning models without direct access to user data. However, many existing studies on federated learning assume that all user data is accurately labeled. In reality, there is a vast amount of unlabeled data and the presence of noise labeling in labeled data. These challenges pose significant problems in imperfectly supervised federated learning environments. Therefore, the development of effective data selection strategies is crucial to enhance the performance of shared global models in such settings.
In the first part of this paper, we introduce FedRN, an algorithm designed to address the presence of noisy labels in a federated learning environment. FedRN utilizes a strategy of selecting clean samples with the assistance of reliable neighbors. Specifically, a target user identifies a neighbor user with similar data and a small number of noise labels as a reliable neighbor. FedRN then selects clean samples using an ensemble Gaussian mixture model with the reliable neighbor's model. Experimental results demonstrate that FedRN achieves high precision and recall for noisy labels, outperforming existing robust algorithms.
The second part of this dissertation focuses on improving the performance of global models in federated learning environments with unlabeled data. We propose LoGo, a federated active learning algorithm that selects a subset of data as queries to an oracle. Our analysis reveals that both a global model and local-only models trained only on internal data can serve as query selection models, and their superiority depends on the inter-class diversity of data within each local and global class. Based on these findings, LoGo integrates the strengths of both models, demonstrating consistently high performance across a wide range of 38 settings.
In the final part of this dissertation, we present FedOMG, an algorithm that leverages unlabeled data without human annotations to improve inner-class balance in federated learning. Selecting highly reliable data from unlabeled datasets is crucial for re-balancing the data classes. However, in real-world federated semi-supervised learning, distribution mismatch often occur between the labeled and unlabeled data, leading to inaccurate pseudo-label generation by the training model. To address this issue, we propose a strategy that utilizes a global model robust to inner class bias to select reliable data with accurate pseudo-labels even in the presence of distribution mismatch. Additionally, applying consistency regularization using the global model improves the performance of the global model on the unselected data samples.
연합 학습은 사용자의 데이터에 직접적인 접근 없이 프라이버시를 보존하며 머신러닝 모델을 학습할 수 있는 프레임워크이다. 연합학습에 대한 기존의 많은 문헌들에서는 사용자의 데이터가 모두 완벽하고 정확하게 레이블링 되어 있다고 가정한다. 하지만 현실 세계에서는 레이블링 되어 있지 않은 데이터가 무수히 많으며, 레이블링이 되어 있는 데이터에 대해서도 노이즈 레이블링이 존재할 수도 있다. 이러한 불완전한 지도 연합 학습 환경에서 레이블링되어 있지 않은 데이터와 잘못된 레이블링이된 데이터의 존재는 연합 학습에서 해결해야 하는 중요한 문제이다. 결론적으로 불완전한 지도 연합 학습 환경에서 공유된 글로벌 모델의 성능을 향상 시키기 위해 효과적인 데이터 선택 전략이 필요하다.
본 논문의 첫 번째 부분에서는 노이즈 레이블이 존재하는 연합 학습 환경에서 정확하게 레이블링된 데이터를 선택하는 알고리즘인 FedRN을 제안한다. FedRN은 신뢰할 수 있는 이웃 사용자의 도움을 받아 노이즈가 없는 데이터를 선택하는 전략을 활용한다. FedRN에서 타겟 사용자는 자신의 데이터와 유사하며 노이즈 레이블이 적게 가지고 있는 이웃 사용자를 신뢰할 수 있는 이웃이라 판단하고 신뢰할 수 있는 모델과의 앙상블 가우시안 혼합 모델을 사용하여 클린 샘플을 선택한다. FedRN은 노이즈 레이블에 대해 높은 정밀도와 재현율을 보이며 기존의 강건한 알고리즘 대비 우수한 성능을 보였다.
본 논문의 두 번째 부분에서는 레이블이 없는 데이터가 존재하는 연합 학습 환경에서 글로벌 모델의 성능을 향상시키기 위해 오라클에게 어떤 데이터를 먼저 쿼리로 선택하는 알고리즘은 LoGo를 제안한다. 우리는 연합 능동 학습에서 쿼리 선택 모델로서 글로벌 모델 뿐만 아니라 내부 데이터만으로 학습한 로컬 모델이 존재할 수 있으며, 두 모델의 우위성이 로컬 및 글로벌 내부 클래스별 데이터의 다양성에 따라 달라진다는 것을 분석하였다. 우리는 이러한 우위성 분석에 따라 글로벌 모델과 로컬 모델의 장점을 모두 통합할 수 있는 연합 능동 학습 알고리즘 LoGo를 개발하였으며, 38개의 폭넓은 세팅에서 우리의 알고리즘이 매우 일관되게 높은 성능을 보인다는 것을 확인하였다.
본 논문의 마지막 부분에서는 레이블이 없는 데이터가 존재하는 연합 학습에서 사람의 레이블링 없이 레이블링이 없는 데이터를 사용하여 내부 클래스 균형을 향상시키는 알고리즘인 FedOMG를 제안한다. 데이터의 클래스 균형을 다시 맞추기 위해 레이블링 되지 않은 데이터셋에서 매우 신뢰할 수 있는 테이터를 선택해야 한다. 하지만 현실 세계의 연합 준지도 학습에서는 레이블링된 데이터와 레이블링 되지 않은 데이터의 분포가 다른 경우가 빈번히 발생하며 이러한 분포의 불일치는 학습 모델이 부정확한 의사 레이블을 생성하게 된다. 우리는 내부 클래스 평향에 강건한 글로벌 모델을 활용하여 내부 두 분포의 불일치 상황에서도 정확한 의사 레이블을 가지는 신뢰할 수 있는 데이터를 선택하기 위한 전략을 제시한다. 또한 선택되지 않은 데이터 샘플에 대해서도 글로벌 모델을 활용한 일관성 정규화를 적용하여 글로벌 모델의 성능을 향상시켰다.