Deep neural networks (DNNs) are vulnerable to adversarial examples generated by adding malicious noise imperceptible to a human. The adversarial examples successfully fool the models under the white-box setting, but the performance of attacks under the black-box setting degrades significantly, which is known as the low transferability problem. Various methods have been proposed to improve transferability, yet they are not effective against adversarial training and defense models. In this paper, we introduce two new methods termed Lookahead Iterative Fast Gradient Sign Method (LI-FGSM) and Self-Cutmix Method (SCM) to address the above issues. LI-FGSM updates adversarial perturbations with the accumulated gradient obtained by looking ahead. A previous gradient-based attack is used for looking ahead during N steps to explore the optimal direction at each iteration. It allows the optimization process to escape the suboptimal region and stabilize the update directions. SCM leverages the modified Cutmix, which copies a patch from the original image and pastes it back at random positions of the same image, to preserve the internal information. SCM makes it possible to generate more transferable adversarial examples while alleviating the overfitting to the surrogate model employed. Our two methods are easily incorporated with the previous iterative gradient-based attacks. Extensive experiments on ImageNet show that our approach acquires state-of-the-art attack success rates not only against normally trained models but also against adversarial training and defense models.
딥 뉴럴 네트워크는 인간이 인지할 수 없는 악의적 잡음을 추가해 생성한 적대적 예제에 취약하다. 화이트 박스 환경에서의 적대적 예제는 모델을 성공적으로 속일 수 있는 반면 블랙 박스 환경에서의 공격 성공률은 급격히 감소하는데 이는 낮은 전이성 문제로 알려져 있다. 전이성을 향상시키기 위한 여러 방법이 제안되었지만 적대적 학습이나 방어모델에는 효과적이지 않았다. 이 논문에서는 상기 문제를 해결하기 위해 LI-FGSM과 SCM으로 명명한 새로운 방법을 제안한다. LI-FGSM은 선행 탐색으로 획득한 기울기를 누적하여 적대적 잡음을 업데이트한다. 최적의 방향을 탐색하기 위해 선행 탐색의 N 단계 동안 기존의 기울기 기반 공격이 사용되는데 이는 비 최적점을 벗어나고 업데이트 방향을 안정화하도록 유도한다. SCM은 Cutmix의 변형으로써, 내부 정보를 보존하기 위해 원본 이미지로부터 한 부분을 복사하여 같은 이미지의 무작위 위치에 붙여 넣는 방법이다. 이는 대체 모델에 대한 과적합을 완화하여 전이 가능한 적대적 예제를 생성할 수 있게 해 준다. 위의 두 방법은 기존의 기울기 기반 공격과 쉽게 병합될 수 있으며 이미지넷 데이터에 대한 실험을 통해 일반적으로 학습된 모델뿐만 아니라 적대적 학습 모델과 방어 모델에 대해 높은 공격 성공률을 얻을 수 있음을 보였다.