In this paper, we propose a locomotion training framework where a control policy and a state estimator are trained concurrently. The framework consists of a policy network which outputs the desired joint positions and a state estimation network which outputs estimates of the robot’s states such as the base linear velocity, foot height, and contact probability. We exploit a fast simulation environment to train the networks and the trained networks are transferred to the real robot. The trained policy and state estimator are capable of traversing diverse terrains such as a hill, slippery plate, and bumpy road. We also demonstrate that the learned policy can run at up to 3.75 m/s on normal flat ground and 3.54 m/s on a slippery plate with the coefficient of friction of 0.22.
이 논문에서는 고속보행제어를 위한 정책 및 상태추정기 동시학습 기법을 제안한다. 학습 프레임워크는 목표 조인트 위치를 출력하는 정책 네트워크와 선형 속도, 발 높이, 발 접촉 상태와 같은 로봇의 상태를 추정하는 네트워크로 구성된다. 네트워크는 고속 시뮬레이션 환경에서 학습되며 실환경 학습 없이 그대로 로봇에 탑재된다. 학습된 제어기는 언덕, 미끄러운 지형, 울퉁불퉁한 지형 등의 다양한 환경에서 보행이 가능하며, 평평한 일반 바닥에서 3.75 m/s, 마찰계수 0.22의 미끄러운 바닥에서 3.54 m/s의 고속보행 성능을 보였다.