We investigate distributed dynamic programming (DP) and reinforcement learning (RL) to solve networked multi-agent Markov decision problems (MDPs). We consider a distributed multi-agent case, where each agent does not have an access to the rewards of other agents except for its own reward. Moreover, each agent can share their parameters with its neighbors over a communication network represented by a graph. We propose a distributed DP in the continuous-time domain, and prove its convergence through control theoretic viewpoints. The proposed analysis can be viewed as a preliminary ordinary differential equation (ODE) analysis of a distributed temporal difference (TD) learning algorithm, whose convergence can be proved using Borkar-Meyn theorem and the single time-scale approach. Finally, We extend the DP to the corresponding TD learning.
네트워크화된 다중 에이전트 마르코스 결정 프로세스을 해결하기 위해 분산 동적 프로그래밍과 강화 학습을 조사한다. 우리는 각 에이전트가 자체 보상을 제외하고 다른 에이전트의 보상에 액세스할 수 없는 분산 다중 에이전트 사례를 고려한다. 또한 각 에이전트는 그래프로 표시되는 통신 네트워크를 통해 자신의 매개 변수를 이웃과 공유할 수 있다. 우리는 연속 시간 영역에서 분산 다이나믹 프로그래밍을 제안하고 제어 이론적 관점을 통해 수렴을 증명한다. 제안된 분석은 분산 시간차 학습 알고리듬의 예비 상미분 방정식 분석으로 볼 수 있으며, 이 알고리듬의 수렴은 Borkar-Meyn 정리와 단일 시간 척도 접근법을 사용하여 증명될 수 있으므로 다이나믹 프로그래밍이 해당 시간차 학습으로 확장될 수 있다.