In cooperative multi-agent reinforcement learning, the outcomes of agent-wise policies are highly stochastic due to the two sources of risk: (a) random actions taken by teammates and (b) random transition and rewards. Although the two sources have very distinct characteristics, existing frameworks are insufficient to control the risk-sensitivity of agent-wise policies in a disentangled manner. To this end, we propose Disentangled RIsk-sensitive Multi-Agent reinforcement learning (DRIMA) to separately access the risk sources. For example, our framework allows an agent to be optimistic with respect to teammates (who can prosocially adapt) but more risk-neutral with respect to the environment (which does not adapt). Our experiments demonstrate that DRIMA significantly outperforms prior state-of-the-art methods across various scenarios in the StarCraft Multi-agent Challenge environment. Notably, DRIMA shows robust performance where prior methods learn only a highly suboptimal policy, regardless of reward shaping, exploration scheduling, and noisy (random or adversarial) agents.
협력적 다중 에이전트 강화 학습에서는 두 가지 위험 원인으로 인해 에이전트별 정책의 결과가 매우 확률적입니다: (a) 팀원들이 취하는 무작위 행동과 (b) 무작위 전이 및 보상입니다. 두 원인은 매우 다른 특징을 가지고 있지만, 기존의 프레임워크는 에이전트별 정책의 위험 민감도를 분리하여 제어하는데 부족합니다. 이를 위해, 우리는 위험 원인을 별도로 접근하는 Disentangled RIsk-sensitive Multi-Agent 강화 학습(DRIMA)을 제안합니다. 예를 들면, 우리의 프레임워크는 에이전트가 팀원들(사회적으로 적응할 수 있는)에게는 낙관적으로, 하지만 환경(적응하지 않는)에 대해서는 더 위험 중립적으로 행동할 수 있게 합니다. 우리의 실험은 StarCraft Multi-agent Challenge 환경에서 다양한 시나리오에 걸쳐 DRIMA가 이전의 최신 기법들을 크게 앞선다는 것을 보여줍니다. 특히, DRIMA는 보상 조절, 탐험 스케줄링, 그리고 노이즈가 있는 (무작위 또는 적대적) 에이전트와 관계없이 이전 방법들이 매우 최적이 아닌 정책만을 학습하는 곳에서 견고한 성능을 보여줍니다.