서지주요정보
Orthogonal feature regularization : a novel approach for training robust models = 특징 직교 정규화 : 강건한 모델 훈련을 위한 새로운 접근법
서명 / 저자 Orthogonal feature regularization : a novel approach for training robust models = 특징 직교 정규화 : 강건한 모델 훈련을 위한 새로운 접근법 / Taehyeon Kim.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035801

소장위치/청구기호

학술문화관(문화관) 보존서고

MKSE 20002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Many deep neural networks (DNN) are easily fooled with adversarial examples designed to cause incorrect classification. Many researchers have tried to find a training recipe for defending against adversaries. However, most of these recipes, such as adversarial training, have the drawback that they are only robust for specific adversaries. Recent works have proposed many training algorithms with regularization, such as weight orthogonalization, penalizing the $l_2$ norm of the input gradient, and controlling the Lipschitz constants of each layer, however, they all have some limitations in terms of computational costs and efficacy. To address this problem, we propose a new approach with “resemble regularization”, which can be different from the concept that we generally believe. Our key idea is to encourage each layer’s outputs from different classes to resemble each other. The advantages of this method are that it helps the model to become robust against $l_\infty$ adversarial perturbations while requiring little computational cost, and it can be used with other robust regularization methods simultaneously, resulting in higher robustness. Our method is verified on MNIST and CIFAR-10. On CIFAR-10, we achieve state-of-the- art performance, which substantially improves the accuracy from 38.58% to 65.92% when tested on the adversaries with $l_\infty$ perturbations of $\epsilon$ = 0.1. In addition, robust adversarial errors against most of the adversaries are improved with a large margin of more than 20%. Through analysis of our method, we expect that this approach can reveal the fundamental reasons for the vulnerability of adversarial examples.

많은 깊은 신경망(deep neural network)는 잘못된 분류(classification)을 야기시키기 위해 만들어진 적대적 예시들(adversarial example)에 취약하다. 많은 연구자들은 이러한 적대적 예들에 대해서도 강건한(robust) 모델을 만들기 위한 훈련 기법을 찾기 위해 노력해왔다. 그러나, 적대적 훈련(adversarial training)을 포함한 많은 훈련 기법들은 특정 적대적 예시에만 강건하다는 결점을 가지고 있다. 파라미터 직교화, 입력 기울기의 정규화, 각 층의 립시츠 상수 조절과 같은 최신 기술들 역시도 계산량과 효율성에서 단점을 가지고 있다. 이런 문제점을 해결하기 위해, 우리는 현재까지 나온 방법들의 접근들과 다른 ‘닮음 정규화’라는 새로운 접근법을 제안한다. 우리 방법의 핵심은 서로 다른 종류(class)의 각 층별 출력값들이 서로 비슷해지도록 하는 것이다. 이 방법의 장점은 $l_\infty$을 통한 교란 신호로 만들어진 적대적 예들로부터 신경망이 적은 연산량으로도 강건해질 수 있으며, 동시에 다른 방법의 적대적 훈련도 동시에 적용될 수 있어 더 강건한 신경망을 훈련할 수 있다는 점이다. 우리의 방법은 MNIST와 CIFAR-10 데이터에서 검증되었다. 우리는 CIFAR-10 데이터에서 $\epsilon$ = 0.1인 $l_\infty$ 교란 신호에 대한 정확도를 38.58%에서 65.92%로 올릴 수 있었고, 이것이 최첨단의 성능임을 확인했다. 게다가, 대다수의 적대적 예시들에 대한 강건함 정도가 20%이상 크게 증진되었다. 우리는 우리 방법론이 적대적 예시들의 취약성에 대한 근본적인 이유를 밝힐 것이라고 기대한다.

서지기타정보

서지기타정보
청구기호 {MKSE 20002
형태사항 iii, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김태현
지도교수의 영문표기 : Seyoung Yun
지도교수의 한글표기 : 윤세영
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 29-32
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서