The advancement of deep learning relies on huge datasets, which involves extensive training cost. To reduce the size of dataset, dataset distillation emerges, which aims to synthesize a small dataset encoding the information of the entire training set. However, we argue that existing dataset condensation method excessively focus on synthesizing typical samples rather than atypical samples, thereby diminish the network’s generalization capacity. To address the limitation, we propose a new strategy, Select-and-Match (SelMatch), that combines dataset condensation and selection. Our method selects important samples first, and perform condensation with regard to selected samples, which enriches the overall information within the synthetic dataset. We evaluate our method on the CIFAR-100 benchmark and demonstrate its superiority over state-of-the-art selection-only and condensation-only methods.
딥러닝의 발전은 광대한 데이터셋에 의존하며 이는 광범위한 훈련 비용을 수반합니다. 데이터셋 크기를 줄이기 위해 데이터셋 축소 기술이 등장했으며, 이는 전체 훈련 세트의 정보를 인코딩한 작은 데이터셋을 합성하는 것을 목표로 합니다. 그러나 우리는 기존 데이터셋 축소 방법이 일반적인 샘플을 합성하는 데 과도하게 초점을 맞추고, 이로 인해 네트워크의 일반화 능력이 약화된다고 주장합니다. 이 한계를 극복하기 위해 데이터셋 축소 방법론과 데이터 샘플 선택 방법론을 통합하는 새로운 전략을 제안합니다. 우리의 방법은 먼저 중요한 샘플을 선택하고 선택된 샘플을 기반으로 축소를 수행하여 합성 데이터셋 내 전반적인 정보를 풍부하게 합니다. CIFAR-100 벤치마크에서 우리의 방법을 평가하고 선택 전용 및 축소 전용 방법에 비해 우수성한 성능을 보임을 입증하였습니다.