With the recent development of hardware and software related to deep learning, it is expanding throughout society. Accordingly, there are many attack and defense studies against deep learning models, but the impact of each study on other studies is not considered. Therefore, in this paper, we analyze the intrinsic relationship between two representative attacks that cause malfunction of deep learning models: backdoor attacks and adversarial examples. In particular, the most realistic threat model is defined through systematic studies on the latest twelve backdoor attacks, and factors that attackers can control are derived. Then, while adjusting the value of these factors, how the success rate of adversarial examples changes is measured, and the relationship between the two attacks is explained separately for each backdoor factor. In this process, we show that the success rate of adversarial examples can be high even in a circumstances where the success rate of backdoor attack is low, and it is revealed that the success rate of a adversarial example can be high by using a backdoor attack under a realistic threat model.
최근 딥러닝과 관련된 하드웨어 및 소프트웨어의 발달로 딥러닝 기술이 사회 전반으로 확대되고 있다. 이에 따라 딥러닝 모델에 대한 공격과 디펜스 연구 많이 이뤄지고 있지만, 각 연구가 다른 연구에 어떤 영향을 미치는 지 고려되지 않고 있다. 따라서, 본 논문에서 딥러닝 모델의 기능 저하(malfunction)를 유발하는 대표적인 공격 두가지, 백도어 공격(backdoor attacks)과 적대적 예제 공격(adversarial examples) 사이의 내제된 관계(intrinsic relationship)에 대해 분석하고자 한다. 특히, 최신 열 두 가지 백도어 공격에 대한 체계적인 스터디를 통해 가장 현실적인 위협 모델을 정의하고, 공격자가 조절할 수 있는 팩터에 대해 도출한다. 이후 이 팩터 값을 조절하면서 적대적 예제 공격 성공률이 어떻게 변화하는 지 측정하며, 두 공격 사이의 관계를 백도어 팩터 별로 구분해 설명한다. 이 과정에서 백도어 공격 성공률이 매우 낮은 상황에서도 적대적 예제 공격 성공률이 매우 높아질 수 있음을 보이고, 현실적인 위협 모델 아래서 백도어 공격을 이용하여 적대적 예제 공격 성공률을 매우 높일 수 있음을 밝힌다.