서지주요정보
Learning to factorize with regularization for cooperative multi-agent reinforcement learning = 협력을 위한 다중 에이전트 강화 학습에서의 정규화를 통한 분해 학습
서명 / 저자 Learning to factorize with regularization for cooperative multi-agent reinforcement learning = 협력을 위한 다중 에이전트 강화 학습에서의 정규화를 통한 분해 학습 / Kyunghwan Son.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033789

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 19040

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Multi-agent reinforcement learning tasks require that agents learn in a stable and scalable manner. To this end, we explore solutions in centralized training and decentralized execution (CTDE) regime popularized recently and focus on value-based methods. VDN and QMIX are representative examples employing centralized training to resolve instability and non-stationarity issues, and distributed execution to render the algorithm scalable. While appropriately factorizing the joint value functions into individual ones is key to distributed execution, we find that the existing methods of value function factorization address only a fraction of game-theoretically modelable MARL tasks. We propose QREG, which takes on a new approach to value function factorization: regularizing the joint value function. This approach translates to relaxing the previously assumed conditions placed on the nature of the value functions. Upon relaxing those assumptions, we illustrate that QREG covers every game satisfying a set of relatively mild conditions, enabling QREG to cover a wider class of games. Our simulations indicate superior performance in a variety of settings, with especially larger margins in games whose payoffs penalize non-cooperative behavior more harshly.

다중 에이전트 강화 학습에서의 여러 작업들은 다수 에이전트들에 대해 안정적이고 확장성이 있도록 학습이 필요하다. 이 논문에서는 이러한 요구조건을 만족하기 위하여 최근 많이 사용되는 중앙 집중형 학습, 분산형 실행 기법에서, 기존 알고리즘들의 한계를 해결하기 위한 새로운 학습 알고리즘을 제안한다. 기존 알고리즘은 분해 가능한 가치 함수를 설계하여 중앙 집중형 학습, 분산형 실행을 가능하게 하였다. 그리고 이를 통하여 중앙 집중형 방식의 분산적 실행이 불가능하고 확장성이 없다는 한계와, 분산적 방식의 안정적인 학습이 불가능하다는 한계를 해결하였다. 하지만 기존의 알고리즘은 제한된 범위의 작업들만 학습 가능함이 보장되는 한계가 있었다. 우리가 제안한 새로운 알고리즘은 기존의 분해 가능한 가치 함수를 설계 함과 동시에, 가치 함수의 모양을 변형시킴으로써 기존 알고리즘의 한계를 해결하고 더 넓은 범위의 작업들에서도 학습 가능함을 보장하게 하였다. 그리고 우리는 이론적 보장과 함께, 여러 시뮬레이션 결과을 통하여 기존의 알고리즘보다 제안된 알고리즘이 큰 폭으로 좋은 성능을 보이는 작업들이 존재함을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MEE 19040
형태사항 iv, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 손경환
지도교수의 영문표기 : Yung Yi
지도교수의 한글표기 : 이융
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 20-21
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서