Generating quadruped locomotion using reinforcement learning has shown promising results so far. Imitation learning was used to create diverse locomotion styles. Methods based on learning without data showed improved results in speed and accuracy on following commands than methods using a manually designed controller. Indeed, quadruped locomotion both in computer graphics and robotics are becoming more robust. Despite these progresses, most current works solved locomotion on rigid terrain. Since we can easily imagine non-rigid terrain in a real environment such as sand or mud, locomotion on non-rigid terrain should be solved.
Our work aims to tackle locomotion on non-rigid terrain. We first showed the effectiveness of our method on the flat rigid terrain. Then we extend our method to work in non-rigid terrain. Our method is based on creating three Bezier curves for the current moving end-effector, the base position, and the base orientation respectively. Once the Bezier curve is created through action space, inverse kinematics is used to calculate the joint angles needed to reach that point. We chose control points of the Bezier curve as an action space. Curriculum learning that enlarged the freedom of control point position enhanced the performance by producing longer stable locomotion. In observation space, we included the configuration of the robot and the minimum amount of environment which was induced by the sparse ray projected from the robot. The necessity of each reward is proven by showing the result motion without each of the rewards subtracted.
강화학습 기반의 사족 보행 연구는 유망한 결과를 보여주고 있다. 모방학습 기반의 방법은 다양한 종류의 보행을 만들기 위해 사용되었으며, 학습 데이터가 없는 방법은 수식 기반 컨트롤러 설계를 사용하는 방법보다 속도 및 사용자 명령을 따를 때 발전된 결과를 보여주었다. 이러한 발전을 바탕으로 컴퓨터 그래픽과 로봇 공학 모두에서 사족보행은 더욱 민첩한 모션을 생성하고 있다. 이러한 진전에도 불구하고 현재 연구의 대부분은 단단한 지형에서의 이동에 관한 것이다. 현실 환경에서 모래나 진흙과 같은 비경직 지형을 쉽게 상상할 수 있으므로 비경직 지형에서 연구도 해결되어야 하는 문제이다.
본 학위논문 에서는 비경직 지형에서의 사족보행 생성을 목표한다. 본 방법은 현재 움직이는 말단장치의 위치, 본체의 위치와 방향에 대해 각각 3 개의 베지어 곡선을 만드는 것을 기반으로 한다. 행동 공간을 통해 베지어 곡선의 제어점이 생성되면 역운동학을 사용하여 해당 지점에 도달하는 데 필요한 관절 각도를 계산한다. 제어점 위치의 자유도를 확대한 커리큘럼 학습으로 길고 안정된 보행을 만들었다. 관찰 공간에는 로봇에서 투사된 선에 의해 유도된 로봇의 정보와 최소한의 환경 정보를 포함했다. 본 방법에서 포함된 보상을 제외한 결과 모션을 보여줌으로써 각 보상의 필요성을 입증했다.