Improving the adversarial attack transferability, or the ability of an adversarial example crafted on a known model to also fool unknown models, has recently received much attention due to their practicality in real-world scenarios. However, existing methods that try to improve such attack transferability craft perturbations in a deterministic manner. Thus, adversarial examples crafted in this manner often fail to fully explore the loss surface and fall into a poor local optimum, suffering from low transferability. To solve this problem, we propose Attentive-Diversity Attack (ADA), which disrupts diverse salient features in a stochastic manner to improve transferability. We first disrupt the image attention to perturb universal features shared by different models. We also disturb these features in a stochastic manner to explore the search space of transferable perturbations more exhaustively and thus to avoid poor local optima. To this end, we use a generator to produce adversarial perturbations that each disturbs features in different ways depending on an input latent code. Extensive experimental evaluations demonstrate the effectiveness of our method, outperforming the transferability of state-of-the-art methods.
적대적 공격을 하고자 하는 타겟 모델의 정보가 주어지지 않은 상황에서도 정보가 알려져 있는 대리 모델에 적대적 이미지를 생성해 타겟 모델을 속이는 전이 가능한 적대적 공격은 그 실용성 덕분에 각광을 받아 왔다. 하지만 적대적 공격의 전이율을 높이는 기존의 기법은 결정론적방법으로 적대적 이미지를 생성한다는 단점을 가진다. 그렇게 생성된 적대적 이미지는 대리 모델의 좋지 않은 로컬 옵티멈에 빠져 과적합되고, 이는 전이율 손실을 일으킨다. 이 문제를 해결하기 위해 본 논문에선 이미지의 현저한 특징점을 다양하게 교란시키는 Attentive-Diversity Attack (ADA)을 제안한다. 다른 구조와 파라미터 값을 가진 모델이 공통적으로 학습하는 특징점을 교란시키기 위해 이미지 어텐션을 교란시킨다. 그리고 이러한 특징점을 다양한 방법으로 교란시킴으로써 더 다양한 전이 가능한 적대적 섭동을 학습하고, 좋지 않은 로컬 옵티멈에 빠지는 것을 방지한다. 이를 공격 생성기 모델을 사용하여 학습시키고, 잠재 코드를 이용하여 공격 생성기가 생성하는 적대적 섭동을 제어한다. 다양한 실험을 통해 기존 방법과 비교하여 본 방법의 높은 전이율을 확인하였다.