This paper presents a novel deep learning-based framework for the automatic generation of stylistic variations on character motion. Our framework is a single set of generative adversarial networks that learns stylistic features from a collection of unpaired motion clips with style labels while supporting multiple cross-domain mapping. We construct a spatio-temporal graph to model a motion sequence and employ graph convolution networks (GCN) to extract stylistic properties along spatial and temporal dimensions. Through spatio-temporal modeling, our framework can perform a robust style transfer on long sequential heterogeneous data and between (extremely different) independent actions. For the motion style translation task, we first use a network that maps a random noise to style, which allows diverse stylization results to be generated without using reference motion. Through various experiments, we demonstrate the ability of our method to generate improved results in terms of visual quality, stylistic diversity, and content preservation.
본 논문은 캐릭터 모션의 스타일 자동 변형을 위한 새로운 딥러닝 기반의 프레임워크를 제시한다. 해당 프레임워크는 모션의 콘텐트에 대한 정렬 과정 없이 스타일 라벨만을 활용하여 다중 스타일 도메인 간의 매핑을 학습하는 단일 적대적 생성 신경망이다. 우리는 모션 시퀀스를 시공간적 그래프로 모델링하고 이에 그래프 컨볼루션 네트워크를 적용함으로써, 신경망이 모션의 시공간적 스타일 속성을 추출할 수 있도록 설계하였다. 시공간적 모션 모델링 방법을 통해, 본 프레임워크는 크게 다른 두 가지 모션 사이에서 효과적으로 스타일 전이를 수행하고, 여러 개의 콘텐트로 구성된 긴 모션 시퀀스에서도 안정적인 스타일 전이 결과를 보인다. 또한, 우리는 처음으로 랜덤 노이즈를 활용해 모션 스타일 변환을 수행하는 네트워크 구조를 제시하였으며, 참조 모션을 사용하지 않고도 다양한 스타일라이제이션 결과를 생성할 수 있도록 하였다. 우리는 다양한 실험을 통해 본 프레임워크가 시각적 품질, 스타일 다양성 그리고 콘텐츠 보존 측면에서 향상된 결과를 생성할 수 있음을 증명하였다.