We address an efficient object detection framework for videos. Despite high performance in many object detection methods using deep learning methods, there exist some cases that lower the detection performance in videos, such as blur due to the fast movement of objects or camera, occlusion, rare pose, etc. In this paper, to solve the above challenging problems, we propose an adaptive multi-scale feature aggregation method and design a new network for the proposal. Based on the one-stage object detection framework, we aggregate several adjacent frames' features in multi-scale to make it more robust on object size and learn the adaptive weights for the aggregation depend on the quality of features. We show that our proposed method can learn the adaptive weights throughout the network and can improve the performance of video object detection in the feature aggregation stage.
이 논문에서는 주어진 비디오 입력에 대해서 객체 검출을 효율적으로 하기 위한 방법을 다루었다. 최근 딥러닝의 발전으로 인한 단일 이미지에서의 높은 객체 검출률과는 달리, 비디오에서는 객체 또는 카메라의 빠른 움직임에 의한 흐려짐, 장애물에 의한 가려짐 또는 드문 자세 등과 같은 경우들로 인해 상대적으로 낮은 검출 성능을 갖는다. 본 연구에서는 위와 같은 도전적인 상황들에 대하여 효율적으로 객체 검출을 하기 위해 멀티스케일 특징점 집계 방법을 제시하였고 이를 위한 네트워크를 설계하였다. 단일 단계 객체 검출 네트워크를 기반으로 이웃한 프레임들의 특징점들을 프레임의 품질에 따라 가중치를 부여할 수 있도록 네트워크를 학습하였고 제안하는 방법을 통해 특징접 집계 단계에서 성능을 향상시킬 수 있음을 보였다.