서지주요정보
Understanding the mechanistic vulnerabilities in deep neural networks via non-linear causal effects of neuron activations = 뉴런 활성화의 비선형적 인과 효과를 통한 심층 신경망의 구조적 취약성 이해
서명 / 저자 Understanding the mechanistic vulnerabilities in deep neural networks via non-linear causal effects of neuron activations = 뉴런 활성화의 비선형적 인과 효과를 통한 심층 신경망의 구조적 취약성 이해 / Youngju Joung.
발행사항 [대전 : 한국과학기술원, 2025].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8044936

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 25070

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The non-linearity of Deep Neural Networks (DNNs) is a fundamental property that defines their representational power. However, the understanding of how specific neurons influence model outputs and contribute to mechanistic vulnerabilities remains limited. In this study, we propose a new metric, the Causal Collapse Effect (CCE), to quantitatively measure the impact of individual neurons on the flow of information within the network. CCE score allows for evaluating the non-linear effects caused by deactivating specific neurons, enabling the identification of structural weaknesses in the network. Our findings reveal that neurons with high CCE scores are closely associated with vulnerable pathways exploited during adversarial attacks. In particular, we observe that deactivating such high-CCE neurons triggers cascading changes in activation across subsequent layers, ultimately inducing strong deviations in the network’s output toward adversarial targets. This study presents a new perspective for evaluating the structural vulnerabilities of deep neural networks by identifying high-risk neurons that contribute to non-linear amplification paths and analyzing their underlying mechanisms. More importantly, it provides practical insights that can inform the development of more robust and reliable neural architectures in the future.

심층 신경망의 비선형성은 네트워크가 복잡한 패턴을 감지함으로써 높은 표현력을 가질 수 있게 하는 핵심 요소이다. 그러나 개별 뉴런이 모델의 출력에 어떤 방식으로 영향을 미쳐 구조적 취약성을 유발할 수 있는지에 대한 근본적인 이해는 아직 충분하지 않다. 본 연구에서는 이러한 한계를 극복하기 위해 “인과 붕괴 효과”라는 새로운 지표를 제안한다. 인과 붕괴 효과를 통해 특정 뉴런의 비활성화가 이후 계층의 활성화 패턴에 미치는 영향을 정량화함으로써, 네트워크 내부에서 발생하는 비선형적 신호 증폭 효과를 측정할 수 있다. 실험 결과, 우리는 인과 붕괴 효과가 높은 뉴런이 적대적 공격 과정에서 빈번히 활용되는 취약 경로와 밀접하게 연관되어 있음을 확인한다. 구체적으로, 인과 붕괴 효과가 높은 뉴런은 입력 공간의 미세한 교란을 출력 공간의 급격한 변화로 증폭시키는 핵심 경로를 구성하며, 이후 계층 전반에 걸쳐 연쇄적인 활성화 변화를 유도하여 모델의 출력이 공격 목표 방향으로 편향되도록 만든다는 사실을 발견한다. 본 연구는 비선형적 증폭 경로에 기여하는 고위험 뉴런을 식별하고 그 메커니즘을 분석함으로써, 심층 신경망의 구조적 취약성을 평가할 수 있는 새로운 관점을 제시한다. 나아가, 이러한 관점은 향후 더욱 견고하고 신뢰할 수 있는 신경망 구조를 설계하기 위한 기반으로 활용될 수 있다는 점에서 의의를 갖는다.

서지기타정보

서지기타정보
청구기호 {MAI 25070
형태사항 v, 24 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기: 정영주
지도교수의 영문표기: Jaesik Choi
지도교수의 한글표기: 최재식
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References: p. 20-22
주제 Explainable Artificial Intelligence (XAI)
Network Vulnerability
Adversarial Attacks
Non-linearity
Linear Regions
설명 가능 인공지능
네트워크 취약성
적대적 공격
비선형성
결정 영역
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서