Sample selection is an effective method for robust learning in the presence of label noises. However, existing approaches that rely on small loss values to identify clean samples can commit the error of excluding clean samples with large losses, called hard clean samples. These hard clean samples play a crucial role in shaping high-quality decision boundaries and excluding them can lead to degraded generalization performance. Toward overcoming these limitations, this paper introduces a novel sample selection strategy called KALM, which utilizes an iterative and powerful model generation and filtering strategy based on softmax probabilities and loss values obtained from deep neural network outputs. KALM preserves challenging and correct-labeled samples while effectively removing label noises, contributing to the construction of a high-performing classifier. Notably, KALM does not rely on expensive prior information such as noise rates or clean validation data, and it produces robust performance across various noise types and ratios. Experimental results on CIFAR-10, CIFAR-100, and Clothing1M datasets consistently highlight the superior performance achieved by KALM compared to existing approaches.
샘플 선택은 라벨 노이즈에 강건한 심층 신경망 학습을 위한 효과적인 방법론이다. 관련한 기존 연구들은 작은 손실 전략을 이용하여 손실 값이 작은 샘플을 깨끗한 라벨의 샘플로 식별하는 방식을 주로 사용해왔다. 그러나 이 전략은 일반적인 샘플보다 더 복잡한 특성을 가져 손실 값이 큰 경향을 보이는 어렵고 올바른 라벨의 샘플을 학습에서 배제할 가능성이 크다. 어렵고 올바른 라벨의 샘플은 모델이 양질의 결정 경계를 형성하는데 매우 중요한 역할을 하며, 배제될 경우 모델의 일반화 성능이 저하되는 주요 원인이 된다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 샘플 선택 전략 KALM을 제안한다. KALM은 심층 신경망의 출력인 소프트 맥스 확률 값과 손실 값을 기반으로 반복적인 강력한 모델 생성 및 필터링을 실행한다. 이를 통해 라벨 노이즈가 포함된 학습 데이터에서 어렵고 올바른 라벨의 샘플은 보존하고 라벨 노이즈를 제거하여 뛰어난 성능의 분류기를 구축할 수 있다. KALM은 노이즈 비율이나 깨끗한 검증 데이터와 같은 고비용 사전 정보에 의존하지 않으며, 다양한 노이즈 유형과 비율에서 강건한 결과를 보여준다. 제안 방법론은 실험을 통해 CIFAR-10, CIFAR-100, Clothing1M 세 가지 벤치마크 데이터셋에서 다른 기존 방법론들보다 우수한 성능을 보였다.