Research to complement the vulnerability of deep neural networks to adversarial attacks has received great attention in the field of machine learning. To evaluate the adversarial robustness, various adversarial attacks have been proposed. However, existing decision-based black-box attacks that rely on gradient estimation or decision boundary are not successful against adversarial defenses using gradient obfuscation. In this paper, we propose a novel gradient-free black-box adversarial attack using random search-based optimization. The proposed method only needs hard-label and is effective even against gradient obfuscation. Moreover, the proposed method generates fine-grained adversarial examples that are close to the clean examples.
심층 신경망의 적대적 공격에 대한 취약점을 보완하기 위한 연구는 기계학습 분야에서 큰 관심을 받아왔다. 적대적 공격에 대한 강인함을 평가하기 위한 척도로 다양한 적대적 공격 알고리즘들이 제시되었다. 하지만 그래디언트 정보에 의존하거나 결정 경계를 따라가는 기존의 결정 기반 블랙박스 공격 알고리즘들은 그래디언트를 난독화시키는 방어 방식들에 취약한 단점이 있다. 본 논문에서는 이러한 적대적 공격의 방법으로 무작위 탐색 최적화 방법에 기반한 그래디언트에 의존하지 않는 새로운 블랙박스 공격 방법을 제시한다. 제안된 공격 알고리즘은 최종 결정 기반의 공격으로 그래디언트 난독화에 또한 효과적인 모습을 보여준다. 또한 제안된 공격 알고리즘은 원본 이미지에 가까운 적대적 사례를 생성할 수 있다.