Generating adversarial examples with high transferability is key to practical black-box attack scenarios, where the attacker has limited or no information about the target models. While previous works mainly deal with input transformation or optimization process to reduce overfitting on a surrogate model and enhance adversarial transferability, we find that well-designed model manipulation can provide complementary gain to existing methods. We propose Worst-case Aware Attack (WAA), a simple effective method that provides access to a virtual ensemble of models to mitigate overfitting on a specific model during the adversarial example generation process. Specifically, WAA formulates bi-level optimizations to seek adversarial examples that are robust against the worst-case models, which are created by adding per-example weight perturbation to the source model towards the direction of weakening the adversarial sample in question. Unlike other model manipulation methods, WAA does not require multiple surrogate models or architecture-specific knowledge. Experimental results on ImageNet demonstrate that WAA can be incorporated with a variety of existing methods to consistently improve transferability in different settings, including naturally trained models, adversarially trained models, and adversarial defenses.
전이가능성이 높은 적대적 공격 이미지를 만드는 기법은 공격자가 목표 모델에 대해 가지고 있는 정보가 없거나 극히 제한되어 있는 블랙박스 적대적 공격 시나리오의 핵심 요소이다. 대체 모델에서의 과적합을 줄이고 적대적 전이가능성을 올리기 위해 입력 변환이나 최적화 과정을 개선하는 대부분의 기존 연구와 다르게, 본 연구에서는 적절히 설계한 모델 변조가 적대적 전이가능성을 개선할 수 있음을 보인다. 본 연구에서 소개하는 최악 인지 공격 기법은 여러개의 가상 모델에 접근하는 방식을 통해 간단하고 효과적으로 적대적 공격 이미지를 만드는 과정에서 일어날 수 있는 특정 모델에 대한 과적합을 완화한다. 우리의 기법은 찾고자 하는 적대적 공격 이미지를 약화시키는 방향으로 설계한 이미지 맞춤 모델 파라미터를 더하는 방식으로 최악의 가상 모델에도 강건한 적대적 공격 이미지를 찾는 이중 수준 최적화 문제를 구성한다. 다른 모델 변조 접근법과 비교하여 우리 기법은 여러개의 대체 모델을 요구하지도 않고, 대체 모델의 구조에 대한 사전 지식을 필요로 하지도 않는다. 이미지넷 데이터셋에서의 실험결과는 최악 인지 공격 기법이 다양한 기존 기법과 결합하여 일반 모델, 적대적 학습으로 만든 모델, 적대적 방어 기제 등의 여러 목표 시나리오에서 적대적 공격 이미지의 전이가능성을 개선함을 보여준다.