In recent advancements in deep learning, there is a continuous generation of large datasets, and mitigating the costs associated with handling these datasets is a significant concern. Dataset condensation is a research area generating small size of synthetic dataset preserving information of original datasets. Among the various approaches to creating synthetic data, we discuss issues with methodologies that incorporate information from original datasets during the network training process. As an enhancement strategy, we propose an algorithm that generates synthetic data reflecting the training dynamics of the network and evaluate its performance. We showed that a methodology reflecting the training dynamics has the potential to generate synthetic data that more accurately captures the information of original datasets.
최근 딥러닝에서는 많은 양의 데이터셋이 계속 생성되고, 이러한 데이터셋을 다루는데 필요한 비용을 줄이는 것은 중요한 문제이다. 데이터셋 압축은 기존의 데이터셋의 정보를 보존하는 작은 크기의 합성 데이터를 만드는 연구 분야이다. 합성 데이터를 만드는 여러 방법론 중에서 네트워크의 훈련 과정에서 기존의 데이터셋이 주는 정보를 반영하는 방법론에 대한 문제점을 제시한다. 개선 방안으로써 네트워크의 훈련 역학을 반영하는 합성 데이터를 만드는 알고리즘을 제시하고 성능을 살펴보았다. 훈련 역학을 반영하여 합성 데이터셋을 만드는 방법론이 기존 데이터셋의 정보를 더 잘 반영하는 합성데이터를 만들 수 있는 가능성이 있음을 보였다.