Self-supervised Video Representation Learning (VRL) aims to learn transferable representations from uncurated, unlabeled video streams that could be utilized for diverse downstream tasks. With recent advances in Masked Image Modeling (MIM), in which the model learns to predict randomly masked regions in the images given only the visible patches, MIM-based VRL methods have emerged and demonstrated their potential by significantly outperforming previous VRL methods. However, they require an excessive amount of computations due to the added temporal dimension. This is because existing MIM-based VRL methods overlook spatial and temporal inequality of information density among the patches in arriving videos by resorting to random masking strategies, thereby wasting computations on predicting uninformative tokens/frames. To tackle these limitations of Masked Video Modeling, we propose a new token selection method that masks more important tokens according to the object's motions, which we refer to as Motion-centric Token Selection. Further, we present a dynamic frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. We validate our method over multiple benchmark and Ego4D datasets, showing that the pre-trained model using our proposed method significantly outperforms state-of-the-art VRL methods on downstream tasks, such as action recognition and object state change classification while largely reducing memory requirements during pre-training and fine-tuning.
자기 지도 비디오 표현 학습은 무분별하고 레이블이 지정되지 않은 비디오를 통해 다양한 하위분야 작업에 활용될 수 있는 전이 가능한 표현을 학습하는 것을 목표로 한다. 마스킹 된 이미지를 가시화 된 패치만을 활용하여 예측하며 학습하는 방식인, 이미지 마스킹 모델의 최근 등장에 따라 이미지 마스킹 기반의 비디오 표현학습 방법은 기존 방법들의 성능을 크게 능가하며 잠재력을 입증하였다. 그러나 비디오 모델은 이미지 마스킹 모델에서 시간축이 추가되어 과도한 양의 연산을 요구한다. 이는 이미지 마스킹 기반의 비디오 모델이 주어진 비디오의 시간적, 공간적 정보 밀도의 불일치함을 간과하고 무작위 마스킹 전략에 의존하여 불필요한 토큰과 프레임을 예측하는데 연산을 낭비하기 때문이다. 이러한 비디오 마스킹 모델의 한계를 해결하기 위해서 물체의 움직임에 따라 더 중요한 토큰들을 마스킹하는 새로운 방법인 '모션 중심 토큰 선택' 방법을 소개한다. 또한 모델이 중복적 정보를 받는 것을 최소화하되, 중요하고 인과관계를 나타내는 프레임에 집중할 수 있도록 돕는 프레임 선택 전략을 제시한다. 여러 벤치마크 및 에고포디 데이터에 대해 행동인식과 물체 상태 변화 분류와 같은 작업을 통해 우리의 전략을 검증하였으며, 우리의 방법으로 사전학습 된 모델이 기존의 비디오 표현학습 방법들을 크게 능가하는 동시에 사전학습 및 미세조정 단계에서의 메모리 사용량을 크게 줄일 수 있다는 것을 입증하였다.