In this paper, we introduce a novel motion planning method which is able to dynamically drive motions of a simple articulated body via reinforcement learning, especially Q-Learning. Given a goal position of operation space of the articulated body, static poses which satisfy the target have been readily calculated through the conventional inverse kinematics(IK) system. IK system has been also used to make a character pose in conjunction with keyframing by animators. In contrast, we explore how to automatically generate motion paths of operation space from a given initial position to a goal position
without tedious keyframing tasks in a lot of frames or any motion capture data. In order to solve this problem, we apply a simple set of muscles into the articulated body and measure the rate of metabolic energy expenditure and comfort level of each muscle based on Hill`s muscle model. These two terms are crucially used to determine the optimal value functions of Q-Learning. As a result, we strongly believe that the result paths of operation space based on completely updated value functions can be regarded as physically-reliable motion paths since it is guided by Hill`s muscle model with physiologically-meaningful properties; the rate of metabolic energy expenditure and comfort level.
이 논문에서 우리는 강화 학습, 특히 큐-학습(Q-Learning)을 통해 상체의 움직임을 역학적으로 유도하는 새로운 동작 계획(motion planning) 기법을 제시한다. 작업 공간(operation space)의 위치가 주어졌을 때, 목표를 만족하는 정적 동작은 보편적인 역기구학을 이용해 쉽게 구할 수 있었다. 또한, 역기구학은 키프레이밍과 함께 캐릭터 동작을 만들어내는 데에 사용되어 왔다. 반면, 우리는 시점과 종점 사이의 작업 공간 경로를 많은 프레임에 걸친 키프레이밍이나 어떠한 모션 캡처 데이터 없이 어떻게 생성해낼 것인가를 보인다. 문제를 해결하기 위해 우리는 캐릭터에 간단한 힐의 근육 모델(Hill`s muscle model)에 기반한 근육 구조를 생성하고 각 근육의 대사 에너지 소비율(the rate of metabolic energy expenditure)과 불편함의 정도(comfort level)을 측정한다. 이 두 값은 큐-학습의 최적 가치 함수(optimal value function)를 정하는 중요한 결정 요소가 된다. 결과적으로 우리는 힐의 근육 모델과 생리학적으로 의미가 있는 두 값, 대사 에너지 소비율과 불편함의 정도에 따라 진행된 강화 학습에 의한 결과가 물리적으로 합당한 동작 경로일 것이라 예상한다.