Neural networks achieve great performances and have become standard structures for automatic classification tasks. However, their decision-making processes in most have not been fully understood due to their complex internal feature spaces. Network decision process can be understood through learned features within the model, mostly using the Euclidean distance. However, solely relying on the Euclidean distance is insufficient to measure feature similarities in the complicated high-dimensional feature space at least for identifying semantics trained by a network. To address this issue, we propose a novel metric that complements the semantic gap between instances by estimating the local difference in decision logic. Using the metric, we find a principal configuration that represents common interpretations among the target and its similar instances. Then we finally group samples that share a principal configuration, called Relaxed Decision Region, which can be considered as a group of samples considered to be similar in the model. We verify our algorithm with various networks and datasets and demonstrate that our algorithm can group semantics in a consistent and efficient way without using additional explicit information.
신경망 모델은 우수한 성능을 보이며 이미지 분류 문제를 푸는데 있어서 표준 모델이 되었다. 그러나 신경망 네트워크의 의사결정 과정은 모델의 복잡한 내부 특징 공간 때문에 완전히 이해되기 어렵다. 네트워크의 의사 결정 프로세스는 대부분 모델 내에서 학습된 특징을 유클리드 거리를 기반으로 측정하여 이해해왔다. 그러나 유클리드 거리에만 의존하는 것은 적어도 네트워크 내 복잡한 고차원 특징 공간의 특성들을 식별하기엔 불충분하다. 이 문제를 해결하기 위해 국소적 공간에서의 의사결정경계의 분포 차이를 추정하여 샘플간의 의미론적 차이를 측정하는 새로운 메트릭을 제안한다(geodesic semantic divergence). 위 메트릭을 사용하여 기준 및 그와 유사한 샘플들에 대한 일반적인 해석을 나타내는 주요 구성 축(principal configuration)을 찾는다. 이 주요 구성 축을 공유하는 샘플들을 그룹하하여 완화된 결정 영역(relaxed decision region)을 찾는다. 이는 모델이 유사한 특징을 갖는다고 바라보는 샘플들의 그룹이라 할 수 있다. 우리는 다양한 네트워크와 데이터 세트로 알고리즘을 검증하고 제안한 알고리즘이 추가적인 외부 정보가 없어도 일관되고 효율적인 방식으로 의미론을 그룹화할 수 있음을 보여준다.