Unmanned robots such as unmanned aerial vehicles are becoming more advanced and inexpensive due to improvement of sensors and actuators. To overcome a single robot system`s weakness, robotic system in the form of a swarm which is inspired by collective behaviors of natural social insects are emerged. However, previous swarm robot systems required direct human intervention which makes swarm robot system less flexible, so that they only work in few specific scenarios. In this paper, to improve flexibility and autonomy of swarm robot mission support, we propose deep reinforcement learning method for swarm robots` autonomous behavior. We discuss various swarm robot behavior occurred in swarm robot mission such as alignment, cohesion and separation. Then swarm MDP consisting observation space, action space, and reward function design is defined to formulate our problem. With swarm MDP defined, we provide neural network design and training algorithm. We present the experimental results of a swarm robot behavior through simulation.
무인 항공기와 같은 무인 로봇은 센서 및 액추에이터의 개선으로 인해 더욱 진보하고 저렴해지고 있다. 단일 로봇 시스템의 약점을 극복하기 위해 자연 사회 곤충의 집단 행동에서 영감을 얻은 군집 형태의 로봇 시스템이 등장했다. 그러나 이전의 군집 로봇 시스템과 이를 통제하기 위해 연구된 방법들은 직접적인 인간의 개입이나 중앙 서버의 통제가 필요하기 때문에 군집 로봇 시스템은 유연성이 떨어지며, 이로 인하여 몇 가지 특정 시나리오에서만 작동한다. 본 논문에서는 군집 로봇 미션 지원의 유연성과 자율성을 향상시키기 위해 군집 로봇의 자율적 행동을 위한 심층 강화 학습 방법을 제안한다. 정렬(Alignment), 응집(Cohesion) 및 분리(Separation)와 같은 군집 로봇 임무에서 발생하는 다양한 행동에 대해 정의합니다. 그런 다음 관측 공간(Observation space), 행동 공간(Action space) 및 보상 함수(Reward function) 설계로 구성된 Swarm-MDP를 통해 문제를 공식화한다. 정의된 Swarm-MDP를 바탕으로 학습 환경 및 학습 알고리즘을 설계한다. 최종적으로 시뮬레이션을 통해 군집 로봇 행동을 구현에 대한 결과를 제시한다.