서지주요정보
Improving adversarial transferability with worst-case aware attacks = 적대적 공격의 전이가능성 개선을 위한 최악 인지 공격 기법 연구
서명 / 저자 Improving adversarial transferability with worst-case aware attacks = 적대적 공격의 전이가능성 개선을 위한 최악 인지 공격 기법 연구 / Sunghyun Myung.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040818

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Generating adversarial examples with high transferability is key to practical black-box attack scenarios, where the attacker has limited or no information about the target models. While previous works mainly deal with input transformation or optimization process to reduce overfitting on a surrogate model and enhance adversarial transferability, we find that well-designed model manipulation can provide complementary gain to existing methods. We propose Worst-case Aware Attack (WAA), a simple effective method that provides access to a virtual ensemble of models to mitigate overfitting on a specific model during the adversarial example generation process. Specifically, WAA formulates bi-level optimizations to seek adversarial examples that are robust against the worst-case models, which are created by adding per-example weight perturbation to the source model towards the direction of weakening the adversarial sample in question. Unlike other model manipulation methods, WAA does not require multiple surrogate models or architecture-specific knowledge. Experimental results on ImageNet demonstrate that WAA can be incorporated with a variety of existing methods to consistently improve transferability in different settings, including naturally trained models, adversarially trained models, and adversarial defenses.

전이가능성이 높은 적대적 공격 이미지를 만드는 기법은 공격자가 목표 모델에 대해 가지고 있는 정보가 없거나 극히 제한되어 있는 블랙박스 적대적 공격 시나리오의 핵심 요소이다. 대체 모델에서의 과적합을 줄이고 적대적 전이가능성을 올리기 위해 입력 변환이나 최적화 과정을 개선하는 대부분의 기존 연구와 다르게, 본 연구에서는 적절히 설계한 모델 변조가 적대적 전이가능성을 개선할 수 있음을 보인다. 본 연구에서 소개하는 최악 인지 공격 기법은 여러개의 가상 모델에 접근하는 방식을 통해 간단하고 효과적으로 적대적 공격 이미지를 만드는 과정에서 일어날 수 있는 특정 모델에 대한 과적합을 완화한다. 우리의 기법은 찾고자 하는 적대적 공격 이미지를 약화시키는 방향으로 설계한 이미지 맞춤 모델 파라미터를 더하는 방식으로 최악의 가상 모델에도 강건한 적대적 공격 이미지를 찾는 이중 수준 최적화 문제를 구성한다. 다른 모델 변조 접근법과 비교하여 우리 기법은 여러개의 대체 모델을 요구하지도 않고, 대체 모델의 구조에 대한 사전 지식을 필요로 하지도 않는다. 이미지넷 데이터셋에서의 실험결과는 최악 인지 공격 기법이 다양한 기존 기법과 결합하여 일반 모델, 적대적 학습으로 만든 모델, 적대적 방어 기제 등의 여러 목표 시나리오에서 적대적 공격 이미지의 전이가능성을 개선함을 보여준다.

서지기타정보

서지기타정보
청구기호 {MCS 23003
형태사항 iii, 30 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 명성현
지도교수의 영문표기 : Seunghoon Hong
지도교수의 한글표기 : 홍승훈
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 25-28
주제 Black-box Adversarial Attack
Adversarial Transferability
Overfitting
블랙박스 적대적 공격
적대적 전이가능성
과적합
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서