Simulation-based reinforcement learning approaches are leading the next innovations in legged robot control. However, the resulting control policies are still not applicable on soft and deformable terrains, especially at high speed. The primary reason is that reinforcement learning approaches, in general, are not effective beyond the data distribution: the agent cannot perform well in environments that it has not experienced. To this end, we introduce an accurate and computationally efficient granular media model for reinforcement learning. Our model can be parameterized to represent diverse types of terrain from soft beach sand to hard asphalt. In addition, we introduce an adaptive control architecture which can identify the terrain properties as the agent runs over the terrain. The identified parameters are then used to boost the locomotion performance of the legged robot. We applied our new methods to the Raibo robot, a dynamic quadrupedal robot developed in-house. The trained networks demonstrated unprecedented locomotion capabilities: the robot was able to run on beach sand at 3.03 m/s even though the feet are completely buried into the sand during the stance phase. The same policy was able to make the robot run on wet sand, soil, soft air mattress, and hard asphalt.
시뮬레이션 기반 강화 학습 접근 방식은 다리 달린 로봇 제어의 차세대 혁신을 주도하고 있다. 그러나 제어 정책을 부드럽고 변형 가능한 지형에 적용하는 것은 특히 고속보행에서 어려운 일이다. 이는 강화 학습 접근 방식이 일반적으로 학습된 환경의 데이터 분산 이상으로 효과적일 수 없으며, 경험하지 않은 환경에서 성능 감소가 발생하는 것에 기인한다. 본 논문에서는 강화 학습을 위한 정확하고 계산 효율적인 입상매체 모델을 도입하였다. 도입된 모델은 매개변수를 조정하여 부드러운 해변 모래에서 단단한 아스팔트에 이르기까지 다양한 유형의 지형을 나타낼 수 있다. 또한 에이전트가 지형을 보행할 때 지형 속성을 식별할 수 있도록 하는 적응형 제어 아키텍처가 도입되었다. 식별된 매개변수는 보행 로봇의 운동 성능을 높이는 데 사용되었다. 제시된 새로운 방법론은 자체 개발된 4족 보행 로봇 Raibo에 적용되었다. 학습된 인공신경망은 상당한 운동 능력을 보였다. 로봇은 입각기 동안 발이 모래에 완전히 묻혔음에도 불구하고 3.03m/s의 속도로 해변 모래 위를 달릴 수 있었다. 같은 정책은 젖은 모래, 흙, 부드러운 에어 매트리스 및 단단한 아스팔트에서도 적응하여 보행할 수 있었다.