Multi-agent reinforcement learning tasks require that agents learn in a stable and scalable manner. To this end, we explore solutions in centralized training and decentralized execution (CTDE) regime popularized recently and focus on value-based methods. VDN and QMIX are representative examples employing centralized training to resolve instability and non-stationarity issues, and distributed execution to render the algorithm scalable. While appropriately factorizing the joint value functions into individual ones is key to distributed execution, we find that the existing methods of value function factorization address only a fraction of game-theoretically modelable MARL tasks. We propose QREG, which takes on a new approach to value function factorization: regularizing the joint value function. This approach translates to relaxing the previously assumed conditions placed on the nature of the value functions. Upon relaxing those assumptions, we illustrate that QREG covers every game satisfying a set of relatively mild conditions, enabling QREG to cover a wider class of games. Our simulations indicate superior performance in a variety of settings, with especially larger margins in games whose payoffs penalize non-cooperative behavior more harshly.
다중 에이전트 강화 학습에서의 여러 작업들은 다수 에이전트들에 대해 안정적이고 확장성이 있도록 학습이 필요하다. 이 논문에서는 이러한 요구조건을 만족하기 위하여 최근 많이 사용되는 중앙 집중형 학습, 분산형 실행 기법에서, 기존 알고리즘들의 한계를 해결하기 위한 새로운 학습 알고리즘을 제안한다. 기존 알고리즘은 분해 가능한 가치 함수를 설계하여 중앙 집중형 학습, 분산형 실행을 가능하게 하였다. 그리고 이를 통하여 중앙 집중형 방식의 분산적 실행이 불가능하고 확장성이 없다는 한계와, 분산적 방식의 안정적인 학습이 불가능하다는 한계를 해결하였다. 하지만 기존의 알고리즘은 제한된 범위의 작업들만 학습 가능함이 보장되는 한계가 있었다. 우리가 제안한 새로운 알고리즘은 기존의 분해 가능한 가치 함수를 설계 함과 동시에, 가치 함수의 모양을 변형시킴으로써 기존 알고리즘의 한계를 해결하고 더 넓은 범위의 작업들에서도 학습 가능함을 보장하게 하였다. 그리고 우리는 이론적 보장과 함께, 여러 시뮬레이션 결과을 통하여 기존의 알고리즘보다 제안된 알고리즘이 큰 폭으로 좋은 성능을 보이는 작업들이 존재함을 확인하였다.