In this paper, we study an algorithm to derive the decentralized and cooperative control strategy for the unmanned surface vehicles (USVs) swarm using graph-centric multi-agent reinforcement learning (MARL). Our model first expresses the mission situation using a graph considering the various sensor ranges. Next, each USV agent encodes observed information into localized embedding and then derives coordinated action through communication with the surrounding agent. Also, We make each agent's policy to maximize the team reward for deriving a cooperative policy. Using the USV combat simulator, we have shown that it outperforms conventional heuristic-based defensive strategies in the training scenarios. In addition, empirically, we showed that proposed model could derive a scalable control strategy through experiments in the unseen scenario.
본 논문에서, 우리는 무인수상정 군집의 분산적 협동 제어 전략을 그래프 중심 다중 에이전트 강화학습을 통해서 도출하는 알고리즘에 대해 연구하였다. 제안된 모델은 첫 번째로, 다양한 센서폭을 고려하여 현재 임무 상황을 그래프로 나타낸다. 그 다음으로, 각 무인수상정 에이전트는 관찰된 정보를 지역화된 임베딩으로 표현하고, 주변의 에이전트들과 의사소통을 통하여 조직화된 행동을 도출한다. 또한, 우리는 협동적인 정책을 도출하기 위해서, 각 에이전트의 정책을 팀 보상을 최대화 하도록 만들었다. 무인수상정 전투 시뮬레이터를 통해서, 우리는 기존의 휴리스틱 기반의 방어 전략을 학습된 모든 상황에서 능가하는 것을 보였다. 추가로, 학습되지 않은 시나리오에서의 실험을 통해서 우리는 제안된 모델이 확장 가능한 제어 전략을 도출할 수 있음을 실험적으로 보였다.