CDRA: Class distribution-based re-balancing algorithm for class-imbalanced semi-supervised learning = 클래스 불균형 준지도 학습을 위한 클래스 분포 기반 밸런싱 알고리즘
서명 / 저자 CDRA: Class distribution-based re-balancing algorithm for class-imbalanced semi-supervised learning = 클래스 불균형 준지도 학습을 위한 클래스 분포 기반 밸런싱 알고리즘 / Taemin Park.
[대전 : 한국과학기술원, 2024].
Following the rise of class-imbalanced semi-supervised learning(CISSL), numerous attempts have been made significant improvements. However, many CISSL algorithms have assumed that the class distribution of unlabeled data is the same as or similar to the class distribution of labeled data. Models based on such assumptions have a difficulty in dealing with data that have class distribution mismatch between labeled and unlabeled data, which is common situation in real-world CISSL settings. To address this issue, we suggest 'class distribution based re-balancing algorithm (CDRA)' that estimates unknown class distribution of unlabeled data and leverages this estimated distribution to alleviate class imbalance. CDRA uses predicted class probabilities for unlabeled samples in estimating class distribution of unlabeled data via Monte Carlo approximation. To embody our idea, we combine CDRA with an auxiliary balanced classifier (ABC) which employs a training loss rebalanced in accordance with the class distribution of the labeled data. By estimating class distribution of the unlabeled set, CDRA allows ABC to be trained in a balanced way even under severe class distribution mismatch. Furthermore, to mitigate imbalance in learning representations, we employ the previously proposed idea that mapping minority class samples into denser clusters. CDRA achieves state-of-the-art performance in all experimental settings, particularly excelling in scenarios with class distribution mismatches.

클래스 불균형 준지도학습의 등장 이후, 다양한 노력들이 큰 성능 향상을 이루었습니다. 그러나 많은 알고리즘들은 레이블이 없는 데이터의 클래스 분포가 레이블이 달린 데이터와 동일하거나 유사하다고 가정했습니다. 이러한 가정에 기반한 모델들은 레이블이 달린 데이터와 레이블이 없는 데이터 간에 클래스 분포 불일치가 있는 경우에 대처하는 데 어려움을 겪습니다. 이 문제를 해결하기 위해, '클래스 불균형 준지도 학습을 위한 클래스 분포 기반 밸런싱 알고리즘'을 제안합니다. 이 알고리즘은 레이블이 없는 데이터의 알려지지 않은 클래스 분포를 추정하고 이 추정된 분포를 활용하여 클래스 불균형을 완화합니다. 알고리즘은 몬테 카를로 근사화를 통해 레이블이 없는 데이터의 클래스 분포를 추정하기 위해 데이터에 대한 예측된 클래스 확률을 사용합니다. 우리의 아이디어를 구현하기 위해, 우리는 알고리즘을 보조 균형 분류기 (ABC)와 결합시킵니다. 이 분류기는 레이블이 달린 데이터의 클래스 분포에 따라 손실의 균형을 맞춥니다. 레이블이 없는 클래스 세트의 클래스 분포를 추정함으로써 우리의 알고리즘은 심각한 클래스 분포 불일치 하에서도 ABC가 균형있게 학습되도록 합니다. 또한 표현 학습에서의 불균형을 완화하기 위해, 우리는 소수 클래스 샘플을 더 밀집한 클러스터로 매핑하는 이전에 제안된 아이디어를 사용합니다. 우리의 알고리즘은 모든 실험 설정에서 최고의 성능을 달성하며 특히 클래스 분포 불일치 시나리오에서 뛰어난 결과를 보여줍니다.


학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
주제 Class imbalanced semi supervised learning
Estimation for class distribution
Monte Carlo approximation
Auxiliary Balanced Classifier
클래스 불균형 준지도 학습
데이터 클래스 분포 추정
몬테 카를로 근사
보조 균형 분류기





