서지주요정보
Diverse generative perturbations on attention space for transferable adversarial attacks = 전이 가능한 적대적 공격을 위한 이미지 어텐션 공간상의 섭동 생성 방법
서명 / 저자 Diverse generative perturbations on attention space for transferable adversarial attacks = 전이 가능한 적대적 공격을 위한 이미지 어텐션 공간상의 섭동 생성 방법 / Woo Jae Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040827

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Improving the adversarial attack transferability, or the ability of an adversarial example crafted on a known model to also fool unknown models, has recently received much attention due to their practicality in real-world scenarios. However, existing methods that try to improve such attack transferability craft perturbations in a deterministic manner. Thus, adversarial examples crafted in this manner often fail to fully explore the loss surface and fall into a poor local optimum, suffering from low transferability. To solve this problem, we propose Attentive-Diversity Attack (ADA), which disrupts diverse salient features in a stochastic manner to improve transferability. We first disrupt the image attention to perturb universal features shared by different models. We also disturb these features in a stochastic manner to explore the search space of transferable perturbations more exhaustively and thus to avoid poor local optima. To this end, we use a generator to produce adversarial perturbations that each disturbs features in different ways depending on an input latent code. Extensive experimental evaluations demonstrate the effectiveness of our method, outperforming the transferability of state-of-the-art methods.

적대적 공격을 하고자 하는 타겟 모델의 정보가 주어지지 않은 상황에서도 정보가 알려져 있는 대리 모델에 적대적 이미지를 생성해 타겟 모델을 속이는 전이 가능한 적대적 공격은 그 실용성 덕분에 각광을 받아 왔다. 하지만 적대적 공격의 전이율을 높이는 기존의 기법은 결정론적방법으로 적대적 이미지를 생성한다는 단점을 가진다. 그렇게 생성된 적대적 이미지는 대리 모델의 좋지 않은 로컬 옵티멈에 빠져 과적합되고, 이는 전이율 손실을 일으킨다. 이 문제를 해결하기 위해 본 논문에선 이미지의 현저한 특징점을 다양하게 교란시키는 Attentive-Diversity Attack (ADA)을 제안한다. 다른 구조와 파라미터 값을 가진 모델이 공통적으로 학습하는 특징점을 교란시키기 위해 이미지 어텐션을 교란시킨다. 그리고 이러한 특징점을 다양한 방법으로 교란시킴으로써 더 다양한 전이 가능한 적대적 섭동을 학습하고, 좋지 않은 로컬 옵티멈에 빠지는 것을 방지한다. 이를 공격 생성기 모델을 사용하여 학습시키고, 잠재 코드를 이용하여 공격 생성기가 생성하는 적대적 섭동을 제어한다. 다양한 실험을 통해 기존 방법과 비교하여 본 방법의 높은 전이율을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 23012
형태사항 iii, 20 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김우재
지도교수의 영문표기 : Sung-Eui Yoon
지도교수의 한글표기 : 윤성의
수록잡지명 : "Diverse Generative Perturbations on Attention Space for Transferable Adversarial Attacks". IEEE International Conference on Image Processing (ICIP), (2022)
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 16-18
주제 Deep learning
Computer vision
Adversarial attack
딥러닝
컴퓨터 비전
적대적 공격
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서