Real-time video segmentation is a crucial task for many real-world applications such as autonomous driving and robot control. Since state-of-the-art semantic segmentation models are often too heavy for real-time applications despite their impressive performance, researchers have proposed lightweight architectures with speed-accuracy trade-offs, achieving real-time speed at the expense of reduced accuracy. In this paper, we propose a novel framework to speed up any architecture with skip-connections for real-time vision tasks by exploiting the temporal locality in videos. Specifically, at the arrival of each frame, we transform the features from the previous frame to reuse them at specific spatial bins. We then perform partial computation of the backbone network on the regions of the current frame that captures temporal differences between the current and previous frame. This is done by dynamically dropping out residual blocks using a gating mechanism which decides which blocks to drop based on inter-frame distortion. We validate our Spatial-Temporal Mask Generator (STMG) on video semantic segmentation benchmarks with multiple backbone networks, and show that our method largely speeds up inference with minimal loss of accuracy.
실시간 의미론적 영상 분할은 자율 주행 및 로봇 제어와 같은 많은 실제 응용 프로그램에서 중요한 작업이다. 최첨단의 의미론적 분할 모델은 인상적인 성능에도 불구하고 실시간 응용 프로그램에는 너무 무거우므로 연구원들은 정확도 감소를 희생하면서 실시간 속도를 달성하는 속도-정확도 절충안을 가진 경량 모델을 제안했다. 이 논문에서 우리는 영상의 시간적 국소성을 활용하여 잔차 연결이 있는 모든 모델의 속도를 높이는 새로운 실시간 의미론적 영상 분할 프레임워크를 제안한다. 구체적으로는, 특정 시점의 입력 사진이 도착하면 이전 시점의 특징을 변환하여 현재 시점의 특정 공간 영역에서 재사용한다. 그런 다음에 현재 시점과 이전 시점 간의 시공간적 차이를 바탕으로 모델의 백본 신경망의 부분 계산을 수행한다. 이는 시점 간의 왜곡을 기반으로 백본 신경망의 잔차 연결이 있는 블록을 동적으로 가지치기함으로써 수행된다. 우리는 다수의 백본 신경망을 여러 의미론적 영상 분할 벤치마크에서 적용하여 제안된 방법이 정확도 손실을 최소화하면서 추론 속도를 크게 높인다는 것을 보였다.