한국과학기술원 도서관

서지주요정보
Factored value functions for cooperative multi-agent reinforcement learning = 협력 다중 에이전트 강화 학습을 위한 가치 분리 함수
서명 / 저자	Factored value functions for cooperative multi-agent reinforcement learning = 협력 다중 에이전트 강화 학습을 위한 가치 분리 함수 / Kyunghwan Son.
발행사항	[대전 : 한국과학기술원, 2024].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8042647

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24035

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In cooperative multi-agent reinforcement learning, the outcomes of agent-wise policies are highly stochastic due to the two sources of risk: (a) random actions taken by teammates and (b) random transition and rewards. Although the two sources have very distinct characteristics, existing frameworks are insufficient to control the risk-sensitivity of agent-wise policies in a disentangled manner. To this end, we propose Disentangled RIsk-sensitive Multi-Agent reinforcement learning (DRIMA) to separately access the risk sources. For example, our framework allows an agent to be optimistic with respect to teammates (who can prosocially adapt) but more risk-neutral with respect to the environment (which does not adapt). Our experiments demonstrate that DRIMA significantly outperforms prior state-of-the-art methods across various scenarios in the StarCraft Multi-agent Challenge environment. Notably, DRIMA shows robust performance where prior methods learn only a highly suboptimal policy, regardless of reward shaping, exploration scheduling, and noisy (random or adversarial) agents.

협력적 다중 에이전트 강화 학습에서는 두 가지 위험 원인으로 인해 에이전트별 정책의 결과가 매우 확률적입니다: (a) 팀원들이 취하는 무작위 행동과 (b) 무작위 전이 및 보상입니다. 두 원인은 매우 다른 특징을 가지고 있지만, 기존의 프레임워크는 에이전트별 정책의 위험 민감도를 분리하여 제어하는데 부족합니다. 이를 위해, 우리는 위험 원인을 별도로 접근하는 Disentangled RIsk-sensitive Multi-Agent 강화 학습(DRIMA)을 제안합니다. 예를 들면, 우리의 프레임워크는 에이전트가 팀원들(사회적으로 적응할 수 있는)에게는 낙관적으로, 하지만 환경(적응하지 않는)에 대해서는 더 위험 중립적으로 행동할 수 있게 합니다. 우리의 실험은 StarCraft Multi-agent Challenge 환경에서 다양한 시나리오에 걸쳐 DRIMA가 이전의 최신 기법들을 크게 앞선다는 것을 보여줍니다. 특히, DRIMA는 보상 조절, 탐험 스케줄링, 그리고 노이즈가 있는 (무작위 또는 적대적) 에이전트와 관계없이 이전 방법들이 매우 최적이 아닌 정책만을 학습하는 곳에서 견고한 성능을 보여줍니다.

서지기타정보

서지기타정보
청구기호	{DEE 24035
형태사항	vi, 65 p. : 삽도 ; 30 cm
언어	한국어
일반주기	저자명의 한글표기 : 손경환 지도교수의 영문표기 : Jinwoo Shin 지도교수의 한글표기 : 신진우 Including appendix
학위논문	학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기	References : p. 62-65
주제	Machine learning Deep learning Reinforcement learning Multi-agent reinforcement learning 기계학습 심층학습 강화학습 다중-에이전트 강화학습

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서