Motion in-betweening is a technique that automatically synthesizes transition frames between some context frames and a target frame, significantly reducing the time required for keyframing. However, existing methods have only been applicable to short transitions where the target pose needs to be similar in both time and space, thereby limiting their use in longer sequences. In this paper, we present a hierarchical architecture consisting of two Transformers that can effectively synthesize long-term motion in-betweening. To address the optimization challenges of generating all frames at once, we divide the problem into two subproblems: predicting keyframes first and refining the remaining frames. Furthermore, we leverage the root trajectory as a conditional input to enhance our approach. By incorporating the root trajectory, our method not only enhances predictability of the generated results for users but also enables them to achieve their desired outcome through editability.
모션 인비트위닝은 시작과 끝에 주어진 프레임 사이의 포즈를 자동으로 합성하는 기술로, 키프레이밍 방식에 비해 적은 시간으로 높은 수준의 결과를 얻을 수 있다. 하지만 기존 방식은 짧은 길이에만 적용할 수 있어 타겟 프레임에 대한 자유도가 낮은 한계점이 존재한다. 본 논문에서는 두 개의 트랜스포머로 구성된 계층적 구조를 제시하여 그 사이에 있는 긴 동작을 효과적으로 합성한다. 모든 프레임을 한 번에 생성하는 문제를 해결하기 위해 먼저 키프레임을 예측하고, 나머지 프레임을 합성하는 두 가지 하위 문제로 문제를 나눈다. 이 방식을 통해 긴 길이의 모션에 대해 이전의 연구보다 좋은 성능을 내며, 학습 때보다 긴 길이의 모션에 대해서도 강건하게 대응함을 보인다. 또한 캐릭터의 궤적을 조건부 입력으로 활용하는 방식을 제안하여 생성된 결과의 예측 가능성을 향상시킬 뿐만 아니라 편집 가능성을 통해 사용자가 원하는 결과를 얻을 수 있도록 한다.