Despite the remarkable performance of deep neural networks on various computer vision tasks, they are known to be susceptible to adversarial perturbations, which makes it challenging to deploy them in real-world safety-critical applications. In this thesis, we conjecture that the leading cause of the adversarial vulnerability is the distortion in the latent feature space and provide methods to suppress them effectively. We propose a Bayesian framework to prune features with high vulnerability to reduce vulnerability and loss on adversarial samples. We validate our Adversarial Neural Pruning with Vulnerability Suppression (ANP-VS) method on multiple benchmark datasets. It obtains state-of-the-art adversarial robustness and improves the performance on clean examples, using only a fraction of the parameters used by the complete network. We further propose a novel meta-learning framework that explicitly learns to generate noise to improve the model’s robustness against multiple types of attacks. Its key component is Meta Noise Generator (MNG) that outputs optimal noise to stochastically perturb a given sample, such that it helps lower the error on diverse adversarial perturbations. We validate the robustness of models trained by our scheme on various datasets and against a wide variety of perturbations, demonstrating that it significantly outperforms the baselines across multiple perturbations with a marginal computational cost.
다양한 컴퓨터 비전 태스크에서 심층 신경망의 놀라운 성능에도 불구하고, 신경망은 적대적인 변화(perturbation)에 취약한 것으로 알려져 있으며, 이는 이러한 신경망을 실제로 안전이 중요시되는 어플리케이션에 사용하는 것을 어렵게 한다. 본 학위논문에서, 우리는 적대적인 취약성의 주요 원인이 잠재 특성 공간의 왜곡이라고 추측하고 이를 효과적으로 억제할 수 있는 방법을 제공하였다. 우리는 적대적으로 생성된 샘플의 취약성과 손실을 줄이기 위해 높은 취약성의 특징을 제거하는 베이지안 프레임워크를 제안하였다. 우리는 여러 벤치마크 데이터셋에서 ANP-VS(취약성 억제) 방법을 통해 적대 신경 프루닝 방법을 검증하였다. 이 모델은 높은 수준의 적대적인 견고성을 얻고 전체 신경망에 의해 사용되는 패러미터의 일부만을 사용하여 깨끗한 데이터에서의 성능을 향상시킨다. 또한 다양한 유형의 공격에 대한 모델의 견고성을 개선하기 위해 노이즈를 발생시키는 방법을 명시적으로 학습하는 새로운 메타 학습 프레임워크를 제안하였다. 그 핵심 요소는 메타 노이즈 생성자로서, 주어진 샘플을 확률적으로 교란하기 위한 최적의 노이즈를 출력하여 다양한 적대적 공격에 대하여 오류를 줄이는 데 도움을 준다. 우리는 다양한 데이터셋과 다양한 변화에 대하여 주어진 방법론에 의해 훈련받은 모델의 견고성을 검증하였고, 이는 우리의 방법론이 제한된 계산 비용으로 여러 변화에 걸쳐 기존 방법론들을 훨씬 능가한다는 것을 보여주었다.