서지주요정보
Practical data selection strategies for incomplete supervised federated learning = 현실 세계의 불완전한 감독 연합 학습을 위한 실용적인 데이터 선택 전략
서명 / 저자 Practical data selection strategies for incomplete supervised federated learning = 현실 세계의 불완전한 감독 연합 학습을 위한 실용적인 데이터 선택 전략 / SangMook Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041433

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DAI 23001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Federated learning is a privacy-preserving framework for training machine learning models without direct access to user data. However, many existing studies on federated learning assume that all user data is accurately labeled. In reality, there is a vast amount of unlabeled data and the presence of noise labeling in labeled data. These challenges pose significant problems in imperfectly supervised federated learning environments. Therefore, the development of effective data selection strategies is crucial to enhance the performance of shared global models in such settings. In the first part of this paper, we introduce FedRN, an algorithm designed to address the presence of noisy labels in a federated learning environment. FedRN utilizes a strategy of selecting clean samples with the assistance of reliable neighbors. Specifically, a target user identifies a neighbor user with similar data and a small number of noise labels as a reliable neighbor. FedRN then selects clean samples using an ensemble Gaussian mixture model with the reliable neighbor's model. Experimental results demonstrate that FedRN achieves high precision and recall for noisy labels, outperforming existing robust algorithms. The second part of this dissertation focuses on improving the performance of global models in federated learning environments with unlabeled data. We propose LoGo, a federated active learning algorithm that selects a subset of data as queries to an oracle. Our analysis reveals that both a global model and local-only models trained only on internal data can serve as query selection models, and their superiority depends on the inter-class diversity of data within each local and global class. Based on these findings, LoGo integrates the strengths of both models, demonstrating consistently high performance across a wide range of 38 settings. In the final part of this dissertation, we present FedOMG, an algorithm that leverages unlabeled data without human annotations to improve inner-class balance in federated learning. Selecting highly reliable data from unlabeled datasets is crucial for re-balancing the data classes. However, in real-world federated semi-supervised learning, distribution mismatch often occur between the labeled and unlabeled data, leading to inaccurate pseudo-label generation by the training model. To address this issue, we propose a strategy that utilizes a global model robust to inner class bias to select reliable data with accurate pseudo-labels even in the presence of distribution mismatch. Additionally, applying consistency regularization using the global model improves the performance of the global model on the unselected data samples.

연합 학습은 사용자의 데이터에 직접적인 접근 없이 프라이버시를 보존하며 머신러닝 모델을 학습할 수 있는 프레임워크이다. 연합학습에 대한 기존의 많은 문헌들에서는 사용자의 데이터가 모두 완벽하고 정확하게 레이블링 되어 있다고 가정한다. 하지만 현실 세계에서는 레이블링 되어 있지 않은 데이터가 무수히 많으며, 레이블링이 되어 있는 데이터에 대해서도 노이즈 레이블링이 존재할 수도 있다. 이러한 불완전한 지도 연합 학습 환경에서 레이블링되어 있지 않은 데이터와 잘못된 레이블링이된 데이터의 존재는 연합 학습에서 해결해야 하는 중요한 문제이다. 결론적으로 불완전한 지도 연합 학습 환경에서 공유된 글로벌 모델의 성능을 향상 시키기 위해 효과적인 데이터 선택 전략이 필요하다. 본 논문의 첫 번째 부분에서는 노이즈 레이블이 존재하는 연합 학습 환경에서 정확하게 레이블링된 데이터를 선택하는 알고리즘인 FedRN을 제안한다. FedRN은 신뢰할 수 있는 이웃 사용자의 도움을 받아 노이즈가 없는 데이터를 선택하는 전략을 활용한다. FedRN에서 타겟 사용자는 자신의 데이터와 유사하며 노이즈 레이블이 적게 가지고 있는 이웃 사용자를 신뢰할 수 있는 이웃이라 판단하고 신뢰할 수 있는 모델과의 앙상블 가우시안 혼합 모델을 사용하여 클린 샘플을 선택한다. FedRN은 노이즈 레이블에 대해 높은 정밀도와 재현율을 보이며 기존의 강건한 알고리즘 대비 우수한 성능을 보였다. 본 논문의 두 번째 부분에서는 레이블이 없는 데이터가 존재하는 연합 학습 환경에서 글로벌 모델의 성능을 향상시키기 위해 오라클에게 어떤 데이터를 먼저 쿼리로 선택하는 알고리즘은 LoGo를 제안한다. 우리는 연합 능동 학습에서 쿼리 선택 모델로서 글로벌 모델 뿐만 아니라 내부 데이터만으로 학습한 로컬 모델이 존재할 수 있으며, 두 모델의 우위성이 로컬 및 글로벌 내부 클래스별 데이터의 다양성에 따라 달라진다는 것을 분석하였다. 우리는 이러한 우위성 분석에 따라 글로벌 모델과 로컬 모델의 장점을 모두 통합할 수 있는 연합 능동 학습 알고리즘 LoGo를 개발하였으며, 38개의 폭넓은 세팅에서 우리의 알고리즘이 매우 일관되게 높은 성능을 보인다는 것을 확인하였다. 본 논문의 마지막 부분에서는 레이블이 없는 데이터가 존재하는 연합 학습에서 사람의 레이블링 없이 레이블링이 없는 데이터를 사용하여 내부 클래스 균형을 향상시키는 알고리즘인 FedOMG를 제안한다. 데이터의 클래스 균형을 다시 맞추기 위해 레이블링 되지 않은 데이터셋에서 매우 신뢰할 수 있는 테이터를 선택해야 한다. 하지만 현실 세계의 연합 준지도 학습에서는 레이블링된 데이터와 레이블링 되지 않은 데이터의 분포가 다른 경우가 빈번히 발생하며 이러한 분포의 불일치는 학습 모델이 부정확한 의사 레이블을 생성하게 된다. 우리는 내부 클래스 평향에 강건한 글로벌 모델을 활용하여 내부 두 분포의 불일치 상황에서도 정확한 의사 레이블을 가지는 신뢰할 수 있는 데이터를 선택하기 위한 전략을 제시한다. 또한 선택되지 않은 데이터 샘플에 대해서도 글로벌 모델을 활용한 일관성 정규화를 적용하여 글로벌 모델의 성능을 향상시켰다.

서지기타정보

서지기타정보
청구기호 {DAI 23001
형태사항 vi, 90 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김상묵
지도교수의 영문표기 : Se-Young Yun
지도교수의 한글표기 : 윤세영
수록잡지명 : "FedRN: Exploiting k-Reliable Neighbors Towards Robust Federated Learning". CIKM '22: Proceedings of the 31st ACM International Conference on Information & Knowledge Management, pp.972–981(2022)
수록잡지명 : "Re-thinking Federated Active Learning based on Inter-class Diversity". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp.3944--3953(2023)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 83-90
주제 Federated learning
Noise label learning
Semi-supervised learning
Active learning
Data quality
Data selection
연합 학습
노이즈 레이블 학습
준지도 학습
능동적 학습
데이터 품질
데이터 선택
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서