We present a deep reinforcement learning based local planer for a mobile robot which can navigate towards goal locations using only a sparse 20-dimensional laser scan and relative goal position as inputs and linear and angular velocity as output. We train multiple models end-to-end without any expert demonstrations or handcrafted features using both on-policy and off-policy methods with prioritized experience replay. Traditional local motion planning methods rely on an obstacle cost map that assumes a relatively static environment while our method can continue to operate even under significant environmental changes. Through the use of a stacked recurrent intermediate model architecture, our policies are able to scale more efficiently with environment complexity and can handle dynamic environments significantly better than prior work. We demonstrate that the learned policies can also generalize to novel environments not encountered during training while incurring no additional training cost.
우리는 희소 20 차원 레이저 스캔과 목표의 상대 위치를 입력으로 사용하고 속도 및 각속도를 출력으로 사 용하여 목표 위치로 향해 이동할 수 있는 모바일 로봇을 위한 심층 강화 학습 기반 지역 계획법을 제안한다. 우리는 우선순위화된 경험 재생에 정책 기반 및 가치 기반 방식을 모두 사용하는 것을 통해 전문가 시범이나 손으로 설계된 특징점 없이 여러 모델을 닫힌 시스템으로서 학습한다. 전통적인 지역 움직임 계획 방법론은 상대적으로 정적인 환경을 가정한 장애물 비용 맵에 의존하지만, 우리 방법은 유의미한 환경 변화에서도 계 속 작동 할 수 있다. 다중 순환 모델 구조를 통해 우리의 정책은 환경 복잡성에 대한 보다 효율적인 확장성을 가지며 기존 연구에 비해 훨씬 우수하게 동적 환경을 잘 처리할 수 있다. 우리는 학습된 정책이 추가적인 학습없이도 학습 중에 마주하지 않았던 새로운 환경을 일반화할 수 있음을 보였다.