In multi-agent reinforcement learning, getting cooperative behavior among agents is one of the most important issues. In addition, in the field of heterogeneous multi-agent reinforcement learning with different types of homogeneous agents, it is crucial to obtain cooperative behavior between different groups of agents, and also important to perform roles of same groups of agents. Learning joint-action set of value using centralized training is an attractive way to getting cooperative behavior in multi-agent reinforcement area. However, this training method have limitations in the heterogeneous reinforcement learning field and require additional work. Our solution is Two Branch Heterogeneous Centralized Training (TBHCT), a novel heterogeneous multi-agent reinforcement learning method that can learn multiple roles with centralized training for cooperative behavior. During training, we divide the training process into two branches, branch one is training the same types of agents with role rewards and branch two is training all the heterogeneous agents with total reward. Our results in 5 versus 5 robot soccer game system with simulated physics for heterogeneous soccer robots setting show that TBHCT can learn cooperative soccer strategies of one goalkeeper, two defenders, and two forwards. Also, the soccer robots trained with the TBHCT algorithm achieve a wining rate of 80% or more in all matches of 90 minutes.
서로 다른 유형의 에이전트들이 존재하는 이기종 멀티에이전트 강화학습(MARL) 분야에서는 서로 다른 에이전트 그룹 간의 협력 행동을 얻는 것이 중요하며 동시에 동일한 에이전트 그룹의 역할을 수행하는 것도 중요하다. 중앙집중식 학습(Centralized Training)을 사용하여 협력 행동들을 학습하는 것은 멀티에이전트 강화학습 영역에서 협력 행동을 얻는 매력적인 방법이다. 그러나 이 학습 방법은 이기종 강화학습 분야에서 한계가 있으며 추가 작업이 필요하다. 우리의 솔루션은 협력행동을 위한 중앙집중식 학습과 더불어 여러 역할을 학습할 수 있는 새로운 이기종 멀티에이전트 강화학습 방법인 2분기 이기종 중앙집중식 학습(TBHCT)이다. 학습 중에 학습 프로세스를 두 개로 나누고, 1분기는 역할 보상으로 동일한 유형의 에이전트를 학습하고 2분기는 전체 보상으로 모든 이기종 에이전트를 학습한다. 물리법칙이 적용된 로봇 시뮬레이터에서 진행되는 5대5 로봇축구 경기에서의 학습 결과는 TBHCT가 골키퍼 1명, 수비수 2명, 공격수 2명의 협동 축구 전략을 배울 수 있음을 보여준다. 또한 TBHCT 알고리즘으로 학습된 축구로봇들이 90 분의 모든 경기에서 80% 이상의 승률을 달성하였다.