Reinforcement learning (RL) has been proven effective in many scenarios, including environment exploration and motion planning. However, its application in data-driven character control has produced relatively simple motion results compared to recent approaches that have used large complex motion data without RL. In this paper, we provide a real-time motion control method that can generate high-quality and complex motion results from various sets of unstructured data while retaining the advantage of using RL, which is the discovery of optimal behaviors by trial and error. We demonstrate the results for a character achieving different tasks, from simple direction control to complex avoidance of moving obstacles. Our system works equally well on biped/quadruped characters, with motion data ranging from 1 to 48 minutes, without any manual intervention. To achieve this, we exploit a finite set of discrete actions, where each action represents full-body future motion features. We first define a subset of actions that can be selected in each state and store these pieces of information in databases during the preprocessing step. The use of this subset of actions enables the effective learning of control policy even from a large set of motion data. To achieve interactive performance at run-time, we adopt a proposal network and a k-nearest neighbor action sampler.
강화 학습은 환경 탐색 및 동작 계획을 포함한 다양한 시나리오에서 효과적이다. 하지만 데이터 기반 캐릭터 제어 분야에서 강화학습을 사용한 방법론들은 강화학습을 사용하지 않으며 거대하고 복잡한 동작 데이터를 사용한 최근 접근 방식에 비해 상대적으로 단순한 동작들만 생성하였다. 본 논문에서는 거대하고 복잡한 동작 데이터 집합에서 고품질의 복잡한 동작 결과를 생성할 수 있는 강화학습 기반 실시간 동작 제어 방법을 제안한다. 우리는 시행 착오를 통해 최적의 행동을 발견하는 강화학습의 이점을 활용하여, 단순한 방향 제어에서 복잡하게 움직이는 장애물 피하기에 이르기까지 다양한 제어 작업을 수행하는 동작 결과를 보여준다. 제안하는 시스템은 1분에서 48분 길이 사이의 이족 및 사족 동작 데이터에서 성공적으로 실시간 동작 제어기를 생성하였다. 본 논문은 동작의 미래 정보를 액션으로 정의하였으며, 캐릭터의 상태에 따라서 선택할 수 있는 이산 액션 집합을 전처리 단계에서 저장하였다. 이는 매우 큰 데이터로부터도 실시간 제어기를 효과적으로 생성할 수 있도록 한다. 또한 실시간 성능을 보장하기 위해서 우리는 제안 네트워크 및 k-최근접 이웃 액션 샘플러를 채택하였다.