서지주요정보
Off-policy multi-agent policy optimization with agent-wise advantage estimation = 에이전트별 어드밴티지 추정을 통한 오프-폴리시 다중 에이전트 정책 최적화
서명 / 저자 Off-policy multi-agent policy optimization with agent-wise advantage estimation = 에이전트별 어드밴티지 추정을 통한 오프-폴리시 다중 에이전트 정책 최적화 / Seongmin Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040736

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23029

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In many multi-agent environments, agents must coordinate their actions with partial information to cooperate or compete. To overcome miscoordination, the framework appeared that uses central informationn to estimate the global value function. Naturally, adopting the policy gradient method to multi-agent reinforcement learning has been actively studied. However, many of these studies do not deal with credit assignment or only in an implicit way. There have been recent attempts to explicitly design rewards, but they have some weaknesses. In this paper, we investigate reward shaping and credit assignment in multi-agent systems with a theoretical understanding of the trade-off between variance and bias. Also, we study off-policy correction for multi-agent systems. From these, we propose a multi-agent off-policy optimization algorithm based on a new advantage estimator with off-policy correction. The algorithm is capable of off-policy estimation while enabling the control bias and the credit assignment. Empirical evaluations on the StarCraft II benchmark and multi-agent MuJoCo environments demonstrate that our method outperforms recent algorithms.

많은 다중 에이전트 환경에서 에이전트는 협력하거나 경쟁하기 위해 부분 정보를 이용해 행동을 조직화해야 한다. 잘못된 조직화를 극복하기 위해 중앙 정보를 사용하여 가치 함수를 추정하는 프레임워크가 등장했다. 자연스럽게 다중 에이전트 강화학습에 정책 강하 기법을 적용하는 것이 활발하게 연구되고 있다. 그러나 이러한 연구 중 대부분이 신용 할당을 다루지 않거나 암시적 방식으로만 처리한다. 최근 보상을 명시적으로 설계하려는 시도가 있었지만 여전히 몇 가지 약점이 있다. 본 논문에서는 분산과 편향 사이의 상충 관계에 대한 이론적 이해를 바탕으로 다중 에이전트 시스템에서 보상 성형과 신용 할당을 연구한다. 또한, 다중 에이전트 시스템에 대한 오프-폴리시 정책 강하 기법을 연구한다. 이를 바탕으로 본 논문에서는 새로운 이득 추정 기법 기반의 다중 에이전트 오프-폴리시 정책 최적화 알고리즘을 제안한다. 이 알고리즘은 정책 편향과 신용 할당의 조절을 가능하게 하면서 오프-폴리시 추정에 적합하다. StarCraft II 벤치마크 및 다중 에이전트 MuJoCo 환경에 대한 경험적 평가는 우리의 방법이 최근 알고리즘보다 우수하다는 것을 보여준다

서지기타정보

서지기타정보
청구기호 {MEE 23029
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김성민
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 19-21
주제 multi-agent reinforcement learning
policy gradient method
off-policy generalization
credit assignment
reward shaping
다중 에이전트 강화학습
정책 강하 기법
오프-폴리시 일반화
신용 할당
보상 성형
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서