In many multi-agent environments, agents must coordinate their actions with partial information to cooperate or compete. To overcome miscoordination, the framework appeared that uses central informationn to estimate the global value function. Naturally, adopting the policy gradient method to multi-agent reinforcement learning has been actively studied. However, many of these studies do not deal with credit assignment or only in an implicit way. There have been recent attempts to explicitly design rewards, but they have some weaknesses. In this paper, we investigate reward shaping and credit assignment in multi-agent systems with a theoretical understanding of the trade-off between variance and bias. Also, we study off-policy correction for multi-agent systems. From these, we propose a multi-agent off-policy optimization algorithm based on a new advantage estimator with off-policy correction. The algorithm is capable of off-policy estimation while enabling the control bias and the credit assignment. Empirical evaluations on the StarCraft II benchmark and multi-agent MuJoCo environments demonstrate that our method outperforms recent algorithms.
많은 다중 에이전트 환경에서 에이전트는 협력하거나 경쟁하기 위해 부분 정보를 이용해 행동을 조직화해야 한다. 잘못된 조직화를 극복하기 위해 중앙 정보를 사용하여 가치 함수를 추정하는 프레임워크가 등장했다. 자연스럽게 다중 에이전트 강화학습에 정책 강하 기법을 적용하는 것이 활발하게 연구되고 있다. 그러나 이러한 연구 중 대부분이 신용 할당을 다루지 않거나 암시적 방식으로만 처리한다. 최근 보상을 명시적으로 설계하려는 시도가 있었지만 여전히 몇 가지 약점이 있다. 본 논문에서는 분산과 편향 사이의 상충 관계에 대한 이론적 이해를 바탕으로 다중 에이전트 시스템에서 보상 성형과 신용 할당을 연구한다. 또한, 다중 에이전트 시스템에 대한 오프-폴리시 정책 강하 기법을 연구한다. 이를 바탕으로 본 논문에서는 새로운 이득 추정 기법 기반의 다중 에이전트 오프-폴리시 정책 최적화 알고리즘을 제안한다. 이 알고리즘은 정책 편향과 신용 할당의 조절을 가능하게 하면서 오프-폴리시 추정에 적합하다. StarCraft II 벤치마크 및 다중 에이전트 MuJoCo 환경에 대한 경험적 평가는 우리의 방법이 최근 알고리즘보다 우수하다는 것을 보여준다