서지주요정보
Efficient video representation learning via masked video modeling with motion-centric token selection = 동작 중심의 토큰 선택을 통한 효율적 마스크 비디오 표현학습 모델링
서명 / 저자 Efficient video representation learning via masked video modeling with motion-centric token selection = 동작 중심의 토큰 선택을 통한 효율적 마스크 비디오 표현학습 모델링 / Sunil Hwang.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040547

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Self-supervised Video Representation Learning (VRL) aims to learn transferable representations from uncurated, unlabeled video streams that could be utilized for diverse downstream tasks. With recent advances in Masked Image Modeling (MIM), in which the model learns to predict randomly masked regions in the images given only the visible patches, MIM-based VRL methods have emerged and demonstrated their potential by significantly outperforming previous VRL methods. However, they require an excessive amount of computations due to the added temporal dimension. This is because existing MIM-based VRL methods overlook spatial and temporal inequality of information density among the patches in arriving videos by resorting to random masking strategies, thereby wasting computations on predicting uninformative tokens/frames. To tackle these limitations of Masked Video Modeling, we propose a new token selection method that masks more important tokens according to the object's motions, which we refer to as Motion-centric Token Selection. Further, we present a dynamic frame selection strategy that allows the model to focus on informative and causal frames with minimal redundancy. We validate our method over multiple benchmark and Ego4D datasets, showing that the pre-trained model using our proposed method significantly outperforms state-of-the-art VRL methods on downstream tasks, such as action recognition and object state change classification while largely reducing memory requirements during pre-training and fine-tuning.

자기 지도 비디오 표현 학습은 무분별하고 레이블이 지정되지 않은 비디오를 통해 다양한 하위분야 작업에 활용될 수 있는 전이 가능한 표현을 학습하는 것을 목표로 한다. 마스킹 된 이미지를 가시화 된 패치만을 활용하여 예측하며 학습하는 방식인, 이미지 마스킹 모델의 최근 등장에 따라 이미지 마스킹 기반의 비디오 표현학습 방법은 기존 방법들의 성능을 크게 능가하며 잠재력을 입증하였다. 그러나 비디오 모델은 이미지 마스킹 모델에서 시간축이 추가되어 과도한 양의 연산을 요구한다. 이는 이미지 마스킹 기반의 비디오 모델이 주어진 비디오의 시간적, 공간적 정보 밀도의 불일치함을 간과하고 무작위 마스킹 전략에 의존하여 불필요한 토큰과 프레임을 예측하는데 연산을 낭비하기 때문이다. 이러한 비디오 마스킹 모델의 한계를 해결하기 위해서 물체의 움직임에 따라 더 중요한 토큰들을 마스킹하는 새로운 방법인 '모션 중심 토큰 선택' 방법을 소개한다. 또한 모델이 중복적 정보를 받는 것을 최소화하되, 중요하고 인과관계를 나타내는 프레임에 집중할 수 있도록 돕는 프레임 선택 전략을 제시한다. 여러 벤치마크 및 에고포디 데이터에 대해 행동인식과 물체 상태 변화 분류와 같은 작업을 통해 우리의 전략을 검증하였으며, 우리의 방법으로 사전학습 된 모델이 기존의 비디오 표현학습 방법들을 크게 능가하는 동시에 사전학습 및 미세조정 단계에서의 메모리 사용량을 크게 줄일 수 있다는 것을 입증하였다.

서지기타정보

서지기타정보
청구기호 {MAI 23022
형태사항 iii, 24 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 황선일
지도교수의 영문표기 : Sung Ju Hwang
지도교수의 한글표기 : 황성주
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 19-22
주제 Video representation learning
Video action recognition
Object state change classification
비디오 표현학습
비디오 행동 인식
물체 상태 변화 분류
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서