Knowledge distillation is a popular network compressing method which improves the performance of a small network (student) by employing output logits of a pre-trained large network (teacher). However, previous studies undoubtedly trust that the teacher network would always give beneficial knowledge in the logits. In this study, we specify the problem that distilling unreliable knowledge from the prediction of teachers would cause degradation of students. To tackle this problem, we propose the balancing knowledge distillation method which regulates the degree of knowledge distillation by utilizing the prior data distribution from the trained teacher. The proposed method can reflect various data distributions that contain the reliability of knowledge. Our results show that the balancing method based on the prior data distribution improves knowledge distillation regardless of datasets.
본 논문에서는 지식의 신뢰도에 따라 균형 있게 전달하는 지식 증류 기법에 대해 다루었다. 지식 증류 기법이란 훈련된 큰 네트워크(교사 네트워크)를 사용하여 작은 네트워크(학생 네트워크)의 성능을 향상시키는 네트워크 압축 방법이다. 이전 연구는 의심할 여지 없이 교사 네트워크가 항상 학생 네트워크에 유익한 지식을 제공할 것이라고 믿었다. 본 연구에서는 교사 네트워크의 신뢰할 수 없는 지식까지 전달하면 학생 네트워크의 성능이 저하될 수 있다는 문제를 명시한다. 이러한 문제를 해결하기 위해, 학습된 교사 네트워크의 사전 데이터 분포를 활용하여 지식 증류 정도를 조절하는 균형 지식 증류 방법을 제안한다. 제안한 방법은 지식의 신뢰성을 포함하는 다양한 사전 데이터 분포를 반영할 수 있다는 장점이 있다. 제안한 방법을 통해 데이터 세트와 관계없이 학생 네트워크의 성능을 향상시킬 수 있음을 확인하였다.