Video-to-video translation aims to generate video frames of a target domain from an input video. Despite its usefulness, the existing video-to-video translation methods require enormous computations, necessitating their model compression for wide use. While there exist compression methods that improve computational efficiency in various image/video tasks, a generally-applicable compression method for video-to-video translation has not been studied much. In response, this paper presents Shortcut-V2V, a general-purpose compression framework for video-to-video translation. Shortcut-V2V avoids full inference for every neighboring video frame by approximating the intermediate features of a current frame from those of the preceding frame. Moreover, in our framework, a newly-proposed block called AdaBD adaptively blends and deforms features of neighboring frames, which makes more accurate predictions of the intermediate features possible. We conduct quantitative and qualitative evaluations using well-known video-to-video translation models on various tasks to demonstrate the general applicability of our framework. The results show that Shortcut-V2V achieves comparable performance compared to the original video-to-video translation model while saving 3.2-5.7 times computational cost and 7.8-44 times memory at test time.
비디오 변환 기술이란, 입력 비디오로부터 원하는 도메인의 비디오의 프레임을 생성하는 것이다. 엄청난 계산량을 가진 비디오 변환 모델들은 활용성이 떨어진다는 단점이 있어 이를 위한 모델 압축 기술이 필요하다. 이미 이미지/비디오 변환 모델의 계산 효율성을 향상하는 압축 방법이 존재하긴 하지만, 다양한 비디오 변환 모델에 일반적으로 적용할 수 있는 압축 방법은 거의 연구가 되지 않았다. 따라서, 본 논문에서는 'Shortcut-V2V'라는 비디오 변환 모델을 위한 범용적인 압축 방법을 제안한다. 'Shortcut-V2V'는 이전 프레임의 특징으로부터 현재 특징을 근사하여 인접한 프레임의 생성 과정을 단축한다. 특히 본 논문에서는, 인접 프레임의 특징을 선택적으로 혼합/변형할 수 있어 현재 프레임의 특징을 보다 정확하게 예측할 수 있는 'AdaBD'라는 블록을 제안한다. 마지막으로, 제안한 방법을 다양한 비디오 변환 모델에 적용하여 정량/정성 평가를 진행한다. 이때, 3.2 ~ 5.7배의 계산량과 7.8 ~ 44배의 메모리 사용량을 절약하는 동시에 기존 비디오 변환 모델과 유사한 성능을 유지함으로써 'Shortcut-V2V'의 범용성과 활용성을 입증했다.