Avatar-mediated mixed-reality telepresence enables distant users to collaborate remotely. However, heterogeneous spaces between distant users have various arrangements and shapes of objects, which make it a challenge to animate the avatar while preserving the motion context of the user. To solve this problem, we propose a real-time framework using a neural network for retargeting the upper-body motion to virtual avatars in dissimilar environments. Our architecture, trained in a supervised way, incorporates a Mixture of Experts to learn well-conditioned latent space for various upper-body motions and an attention mechanism of Transformer to capture temporal dependencies between the user history and avatar history. Through quantitative and qualitative evaluation, we demonstrate the effectiveness of our fast and lightweight architecture that performs real-time retargeting of upper-body motion, including gaze, deictic gesture, and environment contact to virtual avatars in dissimilar environments. Our work is suitable for animating virtual avatars in telepresence scenarios such as interactive learning and collaboration.
아바타가 매개하는 혼합 현실 텔레프레즌스를 통해 사용자는 공간적으로 떨어진 상대방과 원격으로 협업할 수 있다. 하지만, 원거리 사용자 간의 이질적인 공간은 사물의 배열과 형태가 다양하기 때문에 사용자의 모션 맥락을 유지하면서 아바타를 애니메이션화하는 데 어려움이 있다. 이러한 문제를 해결하기 위해, 우리는 사용자의 상반신 모션을 상이한 환경 안의 가상 아바타에 리타게팅하기 위한 신경망 기반의 실시간 프레임워크를 제안한다. 지도 학습으로 훈련된 우리의 아키텍처는 다양한 상반신 모션에 대한 잘 조절된 잠재 공간을 학습하는 Mixture of Experts와 사용자 및 아바타의 기록 사이의 시간 종속성을 파악하는 Transformer의 attention mechanism을 포함한다. 정량적 및 정성적 평가를 통해 주시, 지시적 제스처 및 환경 접촉을 포함하는 상반신 모션을 상이한 환경에 있는 가상 아바타에 실시간으로 리타게팅하는 빠르고 가벼운 구조의 유효성을 입증한다. 우리의 작업은 상호작용적 학습 및 협업과 같은 텔레프레즌스 시나리오에서 가상 아바타를 애니메이션화하는 데 적합하다.