서지주요정보
Toward risk-based optimistic exploration for cooperative multi-agent reinforcement learning = 협력적 다중 에이전트 강화학습을 위한 위험도 기반의 낙천적 탐색방법
서명 / 저자 Toward risk-based optimistic exploration for cooperative multi-agent reinforcement learning = 협력적 다중 에이전트 강화학습을 위한 위험도 기반의 낙천적 탐색방법 / Jihwan Oh.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040545

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23020

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Multi-agent setting is intricate and unpredictable since the behaviors of multiple agents influence one another. To address this environmental uncertainty, distributional reinforcement learning algorithms that incorporate uncertainty via distributional output have been integrated with multi-agent reinforcement learning methods, achieving state-of-the-art performance. However, distributional multi-agent reinforcement learning algorithms still rely on the traditional ε-greedy, which does not take cooperative strategy into account. In this paper, we present a risk-based exploration that leads to collaboratively optimistic behavior by shifting the sampling region of distribution. Initially, we take expectations from the upper quantiles of state-action values, which are optimistic actions, and gradually shift the sampling region of quantiles to the full distribution for exploitation. By ensuring that each agent is exposed to the same level of risk, we can force them to take cooperatively optimistic actions. Our method shows remarkable performance in multi-agent settings requiring cooperative exploration based on quantile regression by virtue of risk property.

다중 에이전트 환경은 에이전트의 행동들이 서로에게 영향을 미치기 때문에 복잡하고, 다음 상태 (next state) 를 예측하기 어렵다. 이와 같은 환경의 불확실성을 다루기 위해서, 행동가치함수 (state-action value) 를 분포의 형태로 결과를 출력하여 환경의 불확실성을 포착하는 분포 강화학습은 다중 에이전트 강화학습과 결합하여 현재 가장 좋은 성능을 보이고 있다. 하지만, 분포 다중 에이전트 강화학습은 협력적 전략 방법을 전혀 고려하지 않는 입실론 그리디 탐색방법에 여전히 의존하고 있다. 이 논문에서, 우리는 분포의 샘플링 구간을 계속 변화시켜나가면서 협력적으로 낙천적인 (optimistic) 행동을 하도록 유도하는 위험도 기반의 탐색방법을 제안한다. 학습 초반에는 상태행동가치 분포의 높은 분위수에서 기댓값을 계산하여 행동을 선택하도록 하고, 활용 (exploitation) 을 위해 점차 분위수의 샘플링 구간을 전체 분포로 변화시켜나간다. 또한, 모든 에이전트들이 동일한 위험도에 노출되도록 보장하여 우리는 그들이 더욱 협력적이면서 낙천적인 행동을 하도록 강제할 수 있다. 우리 방법은 분위수 회귀에 기반하여 위험도의 성질을 이용하는데, 협력적 탐색을 요구하는 다중 에이전트 환경에서 기존 탐색 알고리즘보다 뛰어난 성능을 보인다.

서지기타정보

서지기타정보
청구기호 {MAI 23020
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 오지환
지도교수의 영문표기 : Seyoung Yun
지도교수의 한글표기 : 윤세영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 24-26
주제 Distributional reinforcement learning
Exploration
Multi-agent learning
Risk
Uncertainty
분포강화학습
탐색
다중 에이전트 학습
위험도
불확실성
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서