Acquiring high-quality data is essential in machine learning; however, during the data collection process, incorrectly labeled data may be included for various reasons. Incorrectly labeled data can pose challenges in the machine learning process, leading to a degradation in the overall performance of the model. Existing research for pruning incorrectly labeled data primarily relies on loss values, but it has limitations, particularly in cases of data imbalance or severe noise. In this study, we propose a technique for identifying incorrectly labeled data using SHAP (Shapley Additive exPlanations) values, a tool for explaining model decisions. SHAP values contain more information about machine learning models than loss values and exhibit a more robust characteristic, especially in cases where data is misclassified by the model. Ultimately, this research introduces a technique for data label cleaning that combines SHAP-based label cleaning and loss-based label cleaning through an ensemble model. This approach demonstrates good performance in diverse scenarios and is evaluated on various real-world datasets.
기계 학습에 있어서 좋은 품질의 데이터 확보는 필수적이지만, 데이터 수집 과정에서 다양한 이유로 잘못 분류된 데이터가 포함되기도 한다. 잘못 라벨링 된 데이터는 기계 학습 과정에서 문제를 일으킬 수 있으며, 전체적인 모델의 성능 저하를 유발한다. 잘못 라벨링 된 데이터를 가지치기하기 위한 기존 연구는 손실값을 주로 사용하지만, 데이터가 불균형하거나, 심하게 지저분한 경우에는 잘 작동하지 않는 단점을 가진다. 이에 본 연구에서는 모델의 설명을 위한 도구인 SHAP 값을 사용하여 잘못 분류된 데이터를 찾아내는 기법을 제시한다. SHAP 값은 손실값보다 기계 학습 모델에 대한 정보를 더 많이 담고 있으며, 데이터가 모델에서 잘못 분류되는 경우에 대해서도 손실값 대비 더욱 강건한 특성을 가진다. 최종적으로 본 연구는 SHAP 값 기반의 데이터 레이블 클리닝과 손실값 기반의 데이터 레이블 클리닝을 앙상블 한 모델을 통해 다양한 상황에서도 좋은 성능을 가지는 기법을 제시하며, 이를 다양한 실제 데이터 세트에서 평가한다.