We propose a deep reinforcement learning algorithm for semi-cooperative multi-agent tasks, where agents are equipped with their separate reward functions, yet with willingness to cooperate. Under these semi-cooperative scenarios, popular methods of centralized training with decentralized execution for inducing cooperation and removing the non-stationarity problem do not work well due to lack of a common shared reward as well as inscalability in centralized training. Our algorithm, called Peer Evaluation-based Dual DQN (PED-DQN), proposes to give peer evaluation signals to observed agents, which quantifies how they ``feel'' about a certain transition. This exchange of peer evaluation over time turns out to render agents to gradually reshape their reward functions so that their action choices from the myopic best-response tend to result in the good joint action with high cooperation. This evaluation-based method also allows flexible and scalable training by not assuming knowledge of the number of other agents and their observation and action spaces. We provide the performance evaluation of PED-DQN for the scenarios ranging from a simple two-person prisoner’s dilemma to more complex semi-cooperative multi-agent tasks. In special cases where agents share a common reward function as in the centralized training methods, we show that inter-agent evaluation leads to better performance.
우리는 다중 에이전트 문제에서 부분적 협력 상황일 때에서 적용 가능한 새로운 심층 강화학습 기법을 제안하였다. 부분적 협력 상황이란, 각 에이전트들이 서로 다른 보상에 따라 행동하지만 협력에 의해 에이전트들의 보상이 높아질 수 있는 문제를 뜻하며, 이러한 부분적 협력 상황일 때 각 에이전트들은 보상을 완벽히 공유하지 않기 때문에 기존에 협력을 학습하기 위한 알고리즘으로 잘 알려진 중앙형 학습, 분산형 실행 알고리즘이 동작할 수 없다. 우리의 새로운 알고리즘인 동료 평가 기반 이중 심층 큐-네트워크 (PED-DQN)은, 각 에이전트들끼리 동료 평가 신호를 교환함으로써 상대의 행동이 얼마나 자신에게 도움이 되는지를 전달한다. 이러한 동료 평가 신호는 기존의 보상 함수를 조절함으로써 근시안적이고 이기적인 에이전트들의 행동을 협력을 잘할 수 있는 행동으로 바꾸도록 유도한다. 또한 이러한 동료 평가 신호를 통한 학습은 기존의 중앙형 학습과 비교하여 유연한 확장성을 가진다. 우리는 PED-DQN의 성능을 먼저 간단한 죄수의 딜레마 환경에서 평가한 뒤, 이를 더 복잡한 다중 에이전트 환경으로 확장한다. 또한 모든 에이전트가 공통된 보상을 공유하는 경우에도, 기존의 중앙형 학습과 비교하여 우리의 동료 평가 신호를 통한 학습이 더 좋은 성능을 보이는 경우가 있음을 확인하였다.