서지주요정보
Research on adversarial attacks in multiple deep neural networks = 다중 딥러닝 모델에서의 적대적 공격에 관한 연구
서명 / 저자 Research on adversarial attacks in multiple deep neural networks = 다중 딥러닝 모델에서의 적대적 공격에 관한 연구 / Hyun Kwon.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035357

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DCS 20003

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Deep neural networks (DNNs) are widely used for image recognition, speech recognition, intrusion tolerance, natural language processing, and game-playing. The security and safety of neural networks and machine learning receive considerable attention from the security research community. Adversarial examples are presented in image classification; in an evasion attack, images that are transformed slightly can be incorrectly classified by a machine learning classifier, even when the changes are so small that a human cannot easily recognize them. Such an attack can cause a self-driving car to perform an unwanted action, provided a slight change is made to a road sign. Countermeasures against these attacks have been proposed, and subsequently, more advanced attacks were developed to defeat the countermeasures. In this dissertation, we study the adversarial example attack according to recognition purpose in multiple deep neural networks. For example, an adversarial example might be useful, such as when deceiving an enemy classifier on the battlefield. In such a scenario, it is necessary that a friendly classifier not be deceived. In this dissertation, we propose a friend-safe adversarial example, meaning that the friendly machine can classify the adversarial example correctly. To produce such examples, a transformation is carried out to minimize incorrect classifications by the friend and correct classifications by the adversary. We suggest two configurations for the scheme: targeted and untargeted class attacks. We performed experiments with this scheme using the MNIST and CIFAR10 datasets. Our proposed method shows a 100% attack success rate and 100% friend accuracy with only a small distortion: 2.18 and 1.54 for the two respective MNIST configurations, and 49.02 and 27.61 for the two respective CIFAR10 configurations. In addition, my research expanded into selective attack in the field of speech, attack on multiple models, random untargeted attacks, attack on specific areas, selective untargeted attack, and defenses of the adversarial example. My research also extended to CAPTCHA system, face recognition system, backdoor attack, and poisoning attack.

딥뉴럴네트워크를 이용하여 이미지 인식, 음성 인식, 침입 탐지, 자연언어 처리 등에 좋은 성능을 보여주고 있다. 이러한 딥뉴럴네트워크에 대한 보안과 안전성에 대하여 최근 보안 분야에 상당한 관심을 받고 있다. 딥뉴럴네트워크에 대한 보안 이슈 중 적대적 공격은 이미지 분야에 있어서 사람이 식별할 수 없는 약간의 변화를 원본 이미지에 주어서 기계학습 분류기가 오인식하게 하는 방법이다. 이 공격방법은 자율주행차량이 도로표지판을 식별 시 오인식하는 등 오작동을 유발 시킬 수 있기 때문에 공격과 방어방법에 대한 다양한 연구가 진행되고 있다. 본 학위 연구에서는 다중 딥러닝 뉴럴네트워크에서 인식 목표에 따른 적대적 공격방법에 대해서 연구를 하였다. 예를 들어, 전장 상황에서 아군 분류기와 적군 분류기가 혼재되어 있을 때, 아군 분류기는 제대로 인식하면서 적군 분류기는 오인식을 일으키는 적대적 공격방법이 필요할 수 있다. 이 연구에서는 아군 친화적인 적대적 공격방법을 제안하였다. 이 방법은 아군 분류기를 제대로 인식하면서 적군 분류기는 오인식하게 하는 방법이다. 이러한 아군 친화적인 적대적 공격 샘플을 생성하기 위해서, 변환기는 아군 분류기가 오인식 하는 것을 최소화 하면서 적군 분류기가 제대로 잘못 인식하는 것을 최대화 해야 한다. 연구에서는 목표 적대적 공격과 비목표 적대적 공격에 대해서 각각 구성하여 제안하였고, 실험 데이터셋으로 MNIST와 CIFAR10을 사용하였다. 실험결과는 MNIST의 경우, 목표 적대적 공격과 비목표 적대적 공격에 대하여 각각 2.18과 1.54의 최소 왜곡이고 적군 분류기는 100% 공격 성공률로 속이면서 아군 분류기는 100% 인식률로 제대로 인식하는 것을 볼 수 있었다. CIFAR10의 경우, 목표 적대적 공격과 비목표 적대적 공격에 대하여 각각 49.02와 27.61의 최소 왜곡이고 적군 분류기를 100% 공격 성공률로 속이면서 아군 분류기는 100% 인식률로 제대로 인식하는 것을 볼 수 있었다. 추가적으로, 이 연구를 확장하여 음성 도메인에서 선택적 적대적 공격, 다중 모델에 대한 다중 목표 적대적 공격, 무작위 비목표 적대적 공격, 제한된 영역에서의 적대적 공격, 선택적 비목표 적대적 공격, 적대적 공격에 대한 방어방법에 대해서도 연구를 하였다. 또한, 적대적 공격 방법을 응용하여 CAPTCHA 시스템과 얼굴 인식 시스템, 백도어 공격방법, 중독 공격방법에서도 연구하였다.

서지기타정보

서지기타정보
청구기호 {DCS 20003
형태사항 xii, 153 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 권현
지도교수의 영문표기 : Hyunsoo Yoon
지도교수의 한글표기 : 윤현수
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 143-149
주제 Deep Neural Network (DNN)
Evasion Attack
Adversarial Example
Machine Learning
딥뉴럴네트워크
회피공격
적대적 공격 샘플
기계 학습
음성인식시스템
QR CODE qr code