서지주요정보
Towards end-to-end generative modeling of long videos with memory-efficient bidirectional transformers = 메모리 효율적 양방향 트랜스포머를 활용한 긴 비디오의 엔드 투 엔드 생성 모델링 연구
서명 / 저자 Towards end-to-end generative modeling of long videos with memory-efficient bidirectional transformers = 메모리 효율적 양방향 트랜스포머를 활용한 긴 비디오의 엔드 투 엔드 생성 모델링 연구 / Jaehoon Yoo.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041341

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23050

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive transformers for generating moderately long videos in both quality and speed.

최근 비디오 생성 분야에서 자기회귀적 트랜스포머 기반의 모델들이 강력한 성능을 보여주었다. 그러나 자기회귀적 트랜스포머는 셀프 어텐션으로 인한 이차 복잡도, 순차적 복호화로 인한 느린 추론 속도 및 에러 누적 문제로 인해 비디오 내의 장기적 관계성을 직접적으로 모델링할 수 없다. 본 논문에서는 비디오의 장기적 관계성을 직접적으로 모델링하고, 빠른 추론이 가능한 메모리 효율적 양방향 트랜스포머를 제시한다. 제안하는 모델은 최근 발전하고 있는 양방향 트랜스포머를 기반으로 부분적으로 관측된 비디오의 패치로부터 전체를 동시에 복호화하는 법을 배운다. 또한, 크로스 어텐션을 통해 고정된 개수의 부분적으로 관찰된 맥락 토큰을 내재 토큰에 부호화하고, 부호화한 내재 토큰으로부터 가려진 토큰들을 복호화함으로써 복부호화 과정의 시간 복잡도를 선형 복잡도로 낮춘다. 결과적으로 제안한 모델은 양방향 모델링과 선형 복잡도를 통해 긴 비디오 생성에서 자기회귀적 트랜스포머에 비해 유의미하게 뛰어난 성능 및 추론 속도를 보인다.

서지기타정보

서지기타정보
청구기호 {MCS 23050
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 유재훈
지도교수의 영문표기 : Seunghoon Hong
지도교수의 한글표기 : 홍승훈
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 22-24
주제 Generative modeling of videos
bidirectional transformer
memory efficiency
latent bottleneck
비디오 생성 모델링
양방향 트랜스포머
메모리 효율
내재 변수 압축
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서