Deep ensembles excel in large-scale image classification tasks both in terms of prediction accuracy and calibration. Despite being simple to train, the computation and memory cost of deep ensembles limits their practicability. While some recent works propose to distill an ensemble model into a single model to reduce such costs, there is still a performance gap between the ensemble and distilled models. We propose a simple approach for reducing this gap, i.e., making the distilled performance close to the full ensemble. Our key assumption is that a distilled model should absorb as much function diversity inside the ensemble as possible. We first empirically show that the typical distillation procedure does not effectively transfer such diversity, especially for complex models that achieve near-zero training error. To fix this, we propose a perturbation strategy for distillation that reveals diversity by seeking inputs for which ensemble member outputs disagree. We empirically show that a model distilled with such perturbed samples indeed exhibits enhanced diversity, leading to improved performance.
딥 앙상블은 대규모 이미지 분류 작업에서 우수한 예측 정확도를 달성할 뿐만 아니라, 불확실성 정량화까지 효과적으로 수행한다. 딥 앙상블 모델을 구성하기 위하여 복잡한 학습 과정이 요구되지 않음에도 불구하고, 딥 앙상블 모델을 사용하기 위하여 요구되는 다량의 계산 및 메모리 자원은 딥 앙상블 모델의 실제 사용을 어렵게 만든다. 최근 이를 해소하고자 지식 증류 기법을 활용하여 딥 앙상블 모델을 단일 모델로 압축하는 방식이 연구되고 있으나, 지식 증류 이후의 단일 모델 성능이 지식 증류 이전의 딥 앙상블 모델 성능에 크게 미치지 못하고 있는 실정이다. 본 논문은 지식 증류 이전의 딥 앙상블 모델이 담고 있던 다양성을 지식 증류 이후의 단일 모델이 최대한 흡수해야 한다는 가정에서 출발하여, 지식 증류 전후의 성능 차이를 좁힐 수 있는 기법을 새로이 제안한다. 구체적으로는 기존의 지식 증류 과정이 딥 앙상블 모델이 담고 있던 다양성을 전달하는 데에 그리 효과적이지 않다는 사실을 우선 논하고, 이러한 상황에서 딥 앙상블 모델이 다양성을 드러내는 입력을 찾아내어 증류에 사용하는 섭동 전략이 효과적으로 동작한다는 사실을 실험적으로 보인다.