Deep Neural Networks (DNNs) are extremely susceptible to adversarial examples, which are crafted by intentionally adding imperceptible perturbations to clean images. Due to potential threats of adversarial attacks in practice, black-box transferable attacks are carefully studied to identify the vulnerability of DNNs. Unfortunately, transferable attacks often fail to achieve high transferability because the adversarial examples tend to overfit the source model. Applying input transformation is one of the most effective methods to avoid such overfitting. However, most previous input transformation methods obtain limited transferability because these methods utilize fixed transformations for all images. To solve the problem, we propose an Adaptive Warping Network (AWN), which searches for appropriate warping to the individual data. Specifically, AWN optimizes the warping, which mitigates the effect of adversarial perturbations in each iteration. The adversarial examples are generated to become robust against such strong transformations. Extensive experimental results on cross-model demonstrate that AWN outperforms the existing input transformation methods with respect to transferability. Furthermore, experiments in cross-domain settings demonstrate AWN improves transferability even in challenging scenarios.
심층 신경망은 눈에 띄지 않는 잡음이 의도적으로 추가된 적대적 예제에 취약하다. 적대적 예제에 대한 취약성은 보안, 안전이 중요한 분야에서 심각한 문제를 일으킬 수 있으므로 적대적 공격에 대한 심층 신경망의 취약성 연구가 활발히 진행되고 있다. 타겟 모델의 내부 구조가 숨겨져 있는 상황에서 공격자가 접근할 수 있는 소스 모델을 사용하여 적대적 예제를 생성하고, 그 적대적 예제가 타겟 모델도 교란하기를 기대하는 전이성 기반 공격을 수행할 수 있다. 그러나 전이성 기반 공격은 생성된 적대적 예제가 소스 모델에 과적합되어, 낮은 전이성을 가질 수 있다. 입력 다변화 방법은 이러한 과적합을 피하고 전이성을 향상시키는 효과적인 방법이다. 선행 연구의 입력 다변화 방법은 모든 이미지에 고정된 변환을 이용하여 전이성을 향상시키는 데에 한계가 있다. 이를 극복하기 위해, 이 논문에서는 각 이미지에 대한 적절한 왜곡을 찾는 적응적 왜곡 네트워크를 제안한다. 구체적으로 적응적 왜곡 네트워크는 적대적 예제를 생성하는 반복 과정에서 적대적 잡음의 효과를 저하시키는 최적의 왜곡을 찾는다. 적대적 예제는 이와 같은 강력한 변환에 강인하도록 생성되어, 소스 모델에 과적화되는 것을 효과적으로 피할 수 있다. 다양한 타겟 모델에 대한 적대적 공격 실험을 통해, 적응적 왜곡 네트워크를 적용하여 적대적 예제를 생성하는 방법이 전이성을 높이는 효과적인 방법임을 보인다.