Recently, The number of applications and efficiency of Deep Neural Networks(DNN) have been increased rapidly. The explanations and interpretations on activated features internally of the DNN models are required in the field of research also in society. Following this trends, Researches on explaining Transformer-based Language Models exploit Sparse AutoEncoders(SAE) for linear decomposition of model's features. However, in the field of explaining recent image processing models such as Vision Transformers(ViT) and ConvNeXt based models, which process image inputs as Transformers Language models did, the researches cluster or classify Concept Activation Vectors(CAV) into interpretable structures. But, these methods are less intuitive than feature visualizations. Also, in the researches on the feature visualization, they are highly dependent on the specific input sample image. For addressing this problem, this paper suggests CAV optimization visualization from random noise input into interpretable feature image by optimizing objective function of cosine-similarity between CAV and noise input activations following the definition of CAV. Also, this paper shows visualized features are polysemantical, and suggests a method for decomposition of features by acquiring concept vectors exploiting SAE.
최근 심층신경망의 활용 사례 및 효율성이 높아짐에 따라 많은 분야에서 심층신경망을 활용한 인공지능 모델을 도입하고 있다. 그에 따라, 심층신경망 인공지능 모델 내부에서 표현되는 활성화된 특징에 대하여 설명과 해석이 연구 분야 및 사회적으로도 요구되어지고 있다. 이러한 추세에 맞추어, 트랜스포머 기반의 언어 모델에서 특징의 선형적 분리를 위해 희소 성질 오토인코더가 활용되고 있는 추세이다. 그러나, 유사한 입력 처리를 채용하는 비전 트랜스포머(ViT), ConvNeXt와 같은 고차원 이미지를 처리하는 컨볼루션 기반의 인공신경망에 대한 선형적 분리의 시도는 모델 내부의 컨셉 활성 벡터(Concept Activation Vector)의 군집화 혹은 분류에 그치고 있다. 이러한 방식들은, 시각화에 비해 직관성이 낮은 방식이다. 또한, 특징 시각화에 대한 연구에서는, 정해진 특정 표본에 대한 시각화 연구가 이루어져 입력값에 매우 종속적인 설명을 제공한다. 본 연구는 이를 해결하기 위해, 컨셉 활성 벡터가 가지는 특징을 해석하기 위해 최적화를 활용한 시각화 방식을 제안하고자 한다. 컨셉 활성 벡터의 코사인 유사도를 활용한 목적함수 설계로, 서포트 벡터 머신을 활용한 컨셉 활성 벡터의 정의에 걸맞는 시각화 방법을 제시하고자 한다. 또한, 기존의 컨셉 활성 벡터의 시각화를 통해 얻는 특징은 다의미성을 지님을 보이고, 컨셉 활성 벡터를 희소 성질 오토인코더를 이용해 유도하여 특징들의 시각화를 분리 표현하는 방법을 제시하고자 한다.