Towards end-to-end generative modeling of long videos with memory-efficient bidirectional transformers = 메모리 효율적 양방향 트랜스포머를 활용한 긴 비디오의 엔드 투 엔드 생성 모델링 연구
서명 / 저자 Towards end-to-end generative modeling of long videos with memory-efficient bidirectional transformers = 메모리 효율적 양방향 트랜스포머를 활용한 긴 비디오의 엔드 투 엔드 생성 모델링 연구 / Jaehoon Yoo.
[대전 : 한국과학기술원, 2023].
Autoregressive transformers have shown remarkable success in video generation. However, the transformers are prohibited from directly learning the long-term dependency in videos due to the quadratic complexity of self-attention, and inherently suffering from slow inference time and error propagation due to the autoregressive process. In this paper, we propose Memory-efficient Bidirectional Transformer (MeBT) for end-to-end learning of long-term dependency in videos and fast inference. Based on recent advances in bidirectional transformers, our method learns to decode the entire spatio-temporal volume of a video in parallel from partially observed patches. The proposed transformer achieves a linear time complexity in both encoding and decoding, by projecting observable context tokens into a fixed number of latent tokens and conditioning them to decode the masked tokens through the cross-attention. Empowered by linear complexity and bidirectional modeling, our method demonstrates significant improvement over the autoregressive transformers for generating moderately long videos in both quality and speed.

최근 비디오 생성 분야에서 자기회귀적 트랜스포머 기반의 모델들이 강력한 성능을 보여주었다. 그러나 자기회귀적 트랜스포머는 셀프 어텐션으로 인한 이차 복잡도, 순차적 복호화로 인한 느린 추론 속도 및 에러 누적 문제로 인해 비디오 내의 장기적 관계성을 직접적으로 모델링할 수 없다. 본 논문에서는 비디오의 장기적 관계성을 직접적으로 모델링하고, 빠른 추론이 가능한 메모리 효율적 양방향 트랜스포머를 제시한다. 제안하는 모델은 최근 발전하고 있는 양방향 트랜스포머를 기반으로 부분적으로 관측된 비디오의 패치로부터 전체를 동시에 복호화하는 법을 배운다. 또한, 크로스 어텐션을 통해 고정된 개수의 부분적으로 관찰된 맥락 토큰을 내재 토큰에 부호화하고, 부호화한 내재 토큰으로부터 가려진 토큰들을 복호화함으로써 복부호화 과정의 시간 복잡도를 선형 복잡도로 낮춘다. 결과적으로 제안한 모델은 양방향 모델링과 선형 복잡도를 통해 긴 비디오 생성에서 자기회귀적 트랜스포머에 비해 유의미하게 뛰어난 성능 및 추론 속도를 보인다.


