In the real world, the dataset used to train generative models may include noisy samples. This hinders the model from learning the desired distribution. We propose a method to make robust Generative Adversarial Networks (GANs). We empirically analyze the unstable behavior of GAN training on hard-to-be-learned data and develop efficient measures Log Density Ratio Variance (LDRV) and Log Density Ratio Difference (LDRD) to identify these samples. Using the property that noisy data is hard-to-be-learned, LDRV and LDRD can be used to filter out the noisy data in the training dataset. Furthermore, for clean datasets, forcing the model to focus on hard-to-be-learned data by sample re-weighting using LDRV and LDRD can enhance training performance. Finally, we can make a robust GAN by filtering noisy data and re-weighting.
데이터 수집 과정에서 데이터셋에 잡음 데이터가 섞여 들어갈 수 있다. 생성 모델 학습에서 이러한 잡음 데이터가 섞인 데이터셋을 사용하면 원하지 않는 분포의 데이터가 생성될 수 있다. 이 논문에서는 잡음 데이터가 섞인 데이터셋을 가지고 원하는 분포의 데이터만 생성하는 강인한 생성적 적대 신경망을 만드는 방법을 제시한다. 학습이 어려운 데이터는 학습 과정에서 불안정한 학습 경향을 보임을 실험적으로 확인하고, 각 데이터 샘플에 대한 학습 불안정성을 측정하는 정량화 함수를 제시한다. 잡음 데이터의 학습 불안정성이 높은 성질을 이용하여 제시한 측정 함수를 통해 잡음 데이터를 추출할 수 있다. 또한, 불안정성 측정 함수를 이용하여 정제된 데이터셋에서 학습이 제대로 되지 않은 데이터에 대한 가중치를 조절하여 모델의 성능이 향상됨을 보인다. 마지막으로, 잡음 데이터 추출 및 데이터 가중치 조절을 통한 강인한 생성적 적대 신경망 학습 방법을 제시하며 잡음 데이터가 섞인 데이터셋을 사용하더라도 좋은 성능을 가진 모델을 만들 수 있음을 보인다.