We propose a knowledge distillation method using feature blurring. We raised a problem of the previous methods which transfers exact value of the positive features. To use necessary information for training a network, we propose a distillation method which transfers the blurred feature. Our method is more simple and has less information loss than distillation methods which transform features to attention maps or encoding vectors. Student network trained by our method have better accuracy and are optimized under less constraints, which was verified in various datasets. In CIFAR-100, our method shows the best performance between several distillation methods. Especially, significant performance improvement was shown if the depth or architecture of networks are different. Our method performs better than our baseline, overhaul distillation in CIFAR-10.
이 논문에서는 특징 블러링을 이용한 지식 전달 방법에 대해 다루었다. 특징의 양수값을 그대로 전달하는 방식 자체에 대해 문제점을 제기하고, 학습하는데 필요한 정보만 전달하기 위해 블러링 필터를 사용했다. 특정 블러링을 통해 학생 네트워크를 학습하는 방법을 제안했으며, 이는 특징에 변형을 가해 학습하는 기존 방법들에 비해 더 간단하고, 정보 손실이 적은 편이다. 제안한 방법으로 학생 네트워크를 학습하면, 네트워크가 제약 조건이 완화된 상태에서 최적화된다는 것을 보였으며, 여러가지 데이터셋에서 성능을 검증하였다. 100가지 클래스를 갖는 이미지 분류 데이터셋에서 6가지 학생 - 선생 네트워크 조합에서 가장 좋은 성능을 보였으며, 특히 모델의 깊이가 바뀌거나 모델의 구조가 바뀔 경우 성능이 크게 개선된 것을 확인하였다.