The non-linearity of Deep Neural Networks (DNNs) is a fundamental property that defines their representational power. However, the understanding of how specific neurons influence model outputs and contribute to mechanistic vulnerabilities remains limited. In this study, we propose a new metric, the Causal Collapse Effect (CCE), to quantitatively measure the impact of individual neurons on the flow of information within the network. CCE score allows for evaluating the non-linear effects caused by deactivating specific neurons, enabling the identification of structural weaknesses in the network. Our findings reveal that neurons with high CCE scores are closely associated with vulnerable pathways exploited during adversarial attacks. In particular, we observe that deactivating such high-CCE neurons triggers cascading changes in activation across subsequent layers, ultimately inducing strong deviations in the network’s output toward adversarial targets. This study presents a new perspective for evaluating the structural vulnerabilities of deep neural networks by identifying high-risk neurons that contribute to non-linear amplification paths and analyzing their underlying mechanisms. More importantly, it provides practical insights that can inform the development of more robust and reliable neural architectures in the future.
심층 신경망의 비선형성은 네트워크가 복잡한 패턴을 감지함으로써 높은 표현력을 가질 수 있게 하는 핵심 요소이다. 그러나 개별 뉴런이 모델의 출력에 어떤 방식으로 영향을 미쳐 구조적 취약성을 유발할 수 있는지에 대한 근본적인 이해는 아직 충분하지 않다. 본 연구에서는 이러한 한계를 극복하기 위해 “인과 붕괴 효과”라는 새로운 지표를 제안한다. 인과 붕괴 효과를 통해 특정 뉴런의 비활성화가 이후 계층의 활성화 패턴에 미치는 영향을 정량화함으로써, 네트워크 내부에서 발생하는 비선형적 신호 증폭 효과를 측정할 수 있다. 실험 결과, 우리는 인과 붕괴 효과가 높은 뉴런이 적대적 공격 과정에서 빈번히 활용되는 취약 경로와 밀접하게 연관되어 있음을 확인한다. 구체적으로, 인과 붕괴 효과가 높은 뉴런은 입력 공간의 미세한 교란을 출력 공간의 급격한 변화로 증폭시키는 핵심 경로를 구성하며, 이후 계층 전반에 걸쳐 연쇄적인 활성화 변화를 유도하여 모델의 출력이 공격 목표 방향으로 편향되도록 만든다는 사실을 발견한다. 본 연구는 비선형적 증폭 경로에 기여하는 고위험 뉴런을 식별하고 그 메커니즘을 분석함으로써, 심층 신경망의 구조적 취약성을 평가할 수 있는 새로운 관점을 제시한다. 나아가, 이러한 관점은 향후 더욱 견고하고 신뢰할 수 있는 신경망 구조를 설계하기 위한 기반으로 활용될 수 있다는 점에서 의의를 갖는다.