In the aspect of knowledge distillation, data augmentation techniques serve to augment input data, the medium through which knowledge is distilled from teacher to student. In this case, teacher network and augmentation for teacher pre-training affect the performance of augmentation. Thus, in this paper, we propose novel data augmentation search method with consideration of teacher network and augmentation for teacher. Based on automated augmentation, we demonstrate how to use KD loss to consider teacher network. Moreover, we propose $\textit{policy distance}$ to measure the difference between two augmentation policies. Policy distance is used to maximize the distance from teacher augmentation, in our objectives. We demonstrate the effect of our proposed method by analyzing data distribution changes by augmentations. Through the analysis of these various aspects, we show that our proposed method search an improved data augmentation policy for knowledge distillation.
지식 증류 기법에 있어서, 데이터 증강 기법은 지식 증류를 위한 매개체로서 입력 데이터를 변화시키는 역할을 한다. 다만 지식 증류 기법에서 데이터 증강 기법을 선택할 땐 선생 네트워크가 고려되어야 하고, 선생 네트워크 사전 학습에 사용되는 데이터 증강 기법에 따라서도 성능에 큰 영향을 받는다. 본 논문에서는 선생 네트워크와 선생 네트워크 사전 학습에 사용되는 데이터 증강 기법 두 가지를 함께 고려하여 최적의 데이터 증강 정책을 찾을 수 있는 새로운 자동화된 데이터 증강 기법을 제시했다. 기존에 제시되어 있던 자동화된 데이터 증강 기법을 바탕으로, 선생 네트워크를 고려한 지식 증류 손실 함수를 적용하는 방법에 대해 탐구했다. 더 나아가, 데이터 증강 정책 간의 거리를 측정할 수 있는 함수를 제시하여, 선생 네트워크를 위한 데이터 증강 기법과의 거리가 멀어질 수 있는 방향으로 데이터 증강 정책을 탐색할 수 있도록 했다. 또한, 우리의 탐색 방식의 효과를 확인하기 위해, 데이터 증강으로 인한 데이터 출력 분포의 변화에 대해 분석하여 그 효과를 입증했다. 이와 같은 여러 측면의 분석을 통해서, 우리의 새로운 탐색 방식이 지식 증류 기법에 대해 최적의 데이터 증강 기법을 제시함을 보였다.