Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexitygap score in finding ‘irregular or mislabeled’ data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.
딥러닝에 관한 최근 연구들은 모델의 학습 동향이나 데이터가 제거되었을 때의 성능 차이를 분석하여, 각 데이터가 모델의 최적화 또는 일반화에 주는 영향을 분석한다. 이러한 접근들은 각 데이터의 특징과 중요 도를 밝혀내는데, 이는 딥러닝의 상향과 데이터의 진단에 유용한 정보를 제공한다. 그러나 데이터의 가치를 평가하는 기존의 방법들은 높은 계산 복잡도를 가진 훈련을 필요로 한다. 본 논문은 두 개의 층을 가진 과잉 파라미터 신경망에서 각 데이터의 이론적 영향을 측정하여, 훈련 없이 데이터의 가치를 평가하는 알고리즘인 복잡도-격차 알고리즘을 제시한다. 제시된 알고리즘은 각 데이터의 ‘불규칙성’을 수치화하며 그 데이터가 훈련 과정 동안 신경망의 변화에 얼마나 기여하는지를 나타낸다. 또한 우리는 이 알고리즘이 불규칙하거 나 잘못 레이블링된 데이터를 찾아내는데 효과적임을 이론적으로 분석하고, 그에 해당하는 실험 결과들을 제시한다.