Deep Neural Networks (DNNs) are vulnerable to adversarial examples, which are crafted to cause the model to make wrong predictions. In real-world scenario, since adversary cannot access to target models, black-box attack has attracted great attention. Among them, many studies have been conducted on transfer-based attacks because they can effectively attack unknown target model. However, transfer-based attacks often fail to fool other models which have slightly different activation maps because adversarial examples tend to overfit to the source model. To alleviate this problem, we introduce Feature Translation Attack (FTA), which applies translation on intermediate features during optimization process. Specifically, FTA generates a new adversarial example whose feature is similar to the ensemble of translated features from the existing adversarial example. We achieved better performance than state-of-the-art methods in extensive experiments.
심층 신경망은 신경망의 잘못된 판단을 야기하도록 만들어진 적대적 예제에 취약하다. 실제 환경에서는 공격자가 타겟 모델에 접근할 수 없기 때문에 블랙박스 공격이 큰 관심을 받고 있다. 그 중에서도, 타겟 모델에 대한 정보를 모르는 상태에서도 효과적으로 교란 가능한 전이성 기반 공격에 대해 많은 연구가 진행되었다. 하지만 전이성 기반 공격은 적대적 예제가 소스 모델에 과적합 되는 경향이 있기 때문에 소스 모델과 다른 활성화 맵을 가지는 다른 모델에 대해서는 교란 성공률이 낮다. 이 문제를 해결하기 위해 우리는 적대적 예제의 최적화 과정에서 중간 특징 맵에 평행이동을 변환을 가하는 특징맵 평행이동 공격 (Feature Translation Attack, FTA)을 제안한다. 구체적으로, 해당 공격 방법은 기존 적대적 예제의 특징 맵을 앙상블한 것과 유사한 특징 맵을 가지는 새로운 적대적 예제를 생성한다. 우리는 다양한 실험에서 최신 기법보다 더 좋은 성능을 달성했다.