Nowadays, deep learning technique is widely applied in the fields like autonomous vehicles whose security is important so the accurate result corresponding to the input is important. However, there are many attacks with generating adversarial examples compromising the accuracy of the deep learning model. Therefore, the detection of adversarial examples also actively suggested. The Surprise Adequacy of Deep Learning system (SADL), recently suggested is considered very effective to detect adversarial examples. In this thesis, I suggest a white-box attack for the model defended by the detection system using likelihood-based SADL, to prove this kind of detection can be easily bypassed.
오늘날 딥 러닝 기술은 자율 주행 자동차 등 보안이 중요한 곳에서 널리 쓰이고 있어, 입력 값에 대해 정확한 결과 도출이 중요하다. 하지만 악의적인 입력 값을 통해 딥 러닝 모델의 정확성을 훼손시키는 많은 공격들이 소개되었다. 이에 대응해 악의적인 입력 값을 탐지하는 기술들 또한 많이 제안되었는데, 이 중 최근 제안된 딥 러닝 시스템의 Surprise Adequacy (SA) 를 이용한 방법이 효과적으로 악의적인 입력을 탐지한다. 본 학위논문에서는 가능도 (Likelihood) 에 기반한 SA를 이용하여 악의적인 입력을 탐지하는 딥 러닝 시스템이 화이트 박스 모델로 공격이 가능함을 보여, 이와 같은 방어 메커니즘이 쉽게 공격이 가능함을 보이고자 한다.