While deep convolution neural networks show a remarkable performance in a variety of fields recently, the need for studies about reducing the cost of computation and storage to utilize the deep networks in a edge-device is increasing. Early exit can speed up the inference time through adaptively spending the amount of computation on each samples based on the confidence score of predicted outputs. The shallow network augmented in the backbone network provides an adaptive inference path for early exit and also improves the performance of the backbone network by itself. Since the degree of reducing the computational cost depends on the performance of the network, previous studies proposed a self-distillation methodology to effectively train the shallow network. However, the reason of performance improvement due to the early exit structure and the self-distillation have not revealed. In this paper, we understand the fundamental reason of the both and propose a contrastive regularization loss and an ensemble knowledge distillation. In addition, we propose a self-supervised task for learning a confidence score function to address the miscalibration problem of softmax response which has widely used as a confidence measure.
최근 심층 신경망은 다양한 분야에서 놀라운 성능을 보여주고 있지만, 모바일 장치에서 활용하기 위해 연산량 및 모델의 크기를 줄이는 연구에 대한 필요성이 증가하고 있습니다. 조기 종료는 예측값의 신뢰도 점수를 기반으로 각 샘플에 대한 계산량을 다르게 소비함으로써 전체 추론 시간을 줄이는 연구 분야입니다. 중앙 신경망에 붙은 얕은 신경망의 구조는 조기 추론을 위한 경로를 제공해주는 한편, 자체적으로 중앙 신경망의 성능을 향상시켰습니다. 또한 신경망의 성능이 연산량 감소로 직접적으로 이어지기 때문에, 선행 연구들은 얕은 신경망을 효율적으로 학습하기 위해 자가 증류 방법론을 제안하였습니다. 그러나 조기 추론 구조나 자가 증류의 성능 향상 원인에 대해서는 아직도 뚜렷한 이유를 밝히지 못했습니다. 이 논문에서 우리는 두 가지의 근본적인 원인에 대해 이해하고, 대조적 손실 함수와 앙상블 지식 증류 방법론을 제안합니다. 그 밖에도 신뢰도 척도로 사용되던 예측값의 최댓값이 가지고 있던 오보정 문제를 해결하기 위해, 신뢰도 척도 함수를 학습할 수 있는 자가지도 방법론도 제안하였습니다.