Currently, animating a full-body virtual avatar requires tracking data of six human joints including head, pelvis, two hands and two feet. However, trackers on feet often fail due to infrared occlusion caused by furniture and objects inside the playing area and relatively farther distance from tracking stations than the other trackers'. Moreover, commercial devices for virtual/augmented reality only offer three trackers on head and two hands as default; consumers have to buy additional trackers to experience full-body virtual avatar. In this paper, we introduce a neural network based method for real-time prediction of feet positions with limited number of tracking devices on upper body joints. From input tracking data and predicted feet positions, our framework reconstructs the full-body pose of a virtual avatar. With motion data with lower dimension of joints, preprocessed from existing motion capture dataset, we train a Gated Recurrent Unit (GRU) based neural network to predict feet positions in current time frame from the sequence of tracked transformations of head, pelvis and two hands. The full-body pose is computed from input upper body tracking data and output feet positions by an inverse kinematics solver. In addition, we propose regularization terms designed to minimize artifacts including foot-sliding, foot-floating and discontinuity between output poses. Our system contributes to produce plausible full body animation of a virtual avatar without direct tracking on feet joints, while being fast enough to run in real-time applications.
현재, 가상 아바타의 전신 동작을 재현하기 위해서는 머리, 골반, 양 손 그리고 양 발, 총 6개의 관절에 대한 추적 정보가 필요하다. 하지만 발에 부착된 추적 장치는 주변 환경에 존재하는 가구 또는 물체에 의해 발생하는 적외선 폐색 (occlusion)과 추적 스테이션으로부터의 상대적으로 먼 거리 때문에 추적을 상실하는 현상이 빈번하게 발생한다. 또한 상용화된 가상/증강현실 기기는 기본적으로 머리와 양 손, 총 3개의 추적 장치만을 제공하며, 가상 전신 아바타를 경험하기 위해서는 추가적인 추적 장치를 구매해야 한다. 해당 연구는 신경망 구조를 이용하여, 제한된 수의 추적 장치로부터 사용자의 두 발의 위치를 실시간으로 예측하는 방법을 제안한다. 추적된 양 발의 위치와 입력 추적 정보를 기반으로, 시스템은 가상 아바타의 전신 자세를 재구성한다. 기존의 모션 캡쳐 데이터를 전처리하여 생성한 저차원 데이터를 이용해 학습된 Gated Recurrent Unit (GRU) 기반의 네트워크는, 일정 시간 단위 내의 머리와 양 손, 그리고 허리의 추적 정보를 기반으로 현재 시점의 두 발의 위치를 추정하며, 시스템은 상반신의 추적 정보와 추정한 두 발의 위치를 목적으로 하는 역기구학 (Inverse Kinematics) 연산을 통해 아바타의 전신 자세를 생성한다. 이에 더해서 해당 연구는 연속적인 출력 자세로부터 생성되는 애니메이션에 나타나는 불연속성과 foot-sliding, foot-floating을 최소화 하기 위한 새로운 손실함수를 제안한다. 해당 시스템을 통해 사용자는, 직접적인 발의 추적 정보 없이 가상 아바타의 자연스러운 전신 움직임을 실시간으로 생성할 수 있다.