Adversarial attack is aimed at fooling a target classifier with imperceptible perturbation. Adversarial examples, which are carefully crafted with a malicious purpose, can lead to erroneous predictions, resulting in catastrophic accidents. To mitigate the effect of adversarial attacks, we propose a novel purification model called CAP-GAN. CAP-GAN considers the idea of pixel-level and feature-level consistency to achieve reasonable purification under cycle-consistent learning. Specifically, we utilize a guided attention module and knowledge distillation to convey meaningful information to the purification model. Once the model is fully trained, inputs are projected into the purification model and transformed into clean-like images. We vary the capacity of the adversary to argue the robustness against various types of attack strategies. On CIFAR-10 dataset, CAP-GAN outperforms other pre-processing based defenses under both black-box and white-box settings.
적대적 공격은 감지할 수 없는 잡음을 생성하여 대상 분류기를 속이는 것을 목표로 한다. 악의적인 목적으로 생성된 적대적 샘플은 딥러닝 기반의 어플리케이션들의 잘못된 예측을 만들어내 치명적인 사고를 초래할 수 있다. 우리는 적대적 공격의 위협을 완화시키기 위한 CAP-GAN이라는 새로운 전처리 기반의 잡음 제거 모델을 제안한다. CAP-GAN은 합리적인 잡음 제거 목표를 달성하기 위해 이미지 픽셀 단위와 특징 단위의 일관성을 동시에 고려한다. 구체적으로, 잡음 제거 모델이 보다 의미있는 정보를 학습하기 위해 지식 증류 기법과 관심영역 안내 기법을 활용하였다. 모델이 완전히 훈련되면, 분류기의 입력값들은 분류기에 전달되기 전, 노이즈 제거 모델에 의해 노이즈가 제거된 이미지로 변환된다. 우리는 제안한 모델의 견고성을 주장하기 위해 다양한 상황에서 적대적 공격을 수행하였다. CIFAR-10 데이터에서 CAP-GAN은 블랙박스 및 화이트박스 공격 환경에서 모두 다른 노이즈 제거 모델들보다 뛰어난 성능을 보여주었다.