서지주요정보
Self-supervised exploration for cooperative multi-agent reinforcement learning = 다중 에이전트 강화학습에서의 협력을 위한 자기지도 탐색기법
서명 / 저자 Self-supervised exploration for cooperative multi-agent reinforcement learning = 다중 에이전트 강화학습에서의 협력을 위한 자기지도 탐색기법 / Roben Delos Reyes.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036641

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20153

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Learning in sparse reward environments remains challenging for standard cooperative multi-agent reinforcement learning (MARL) algorithms. Because extrinsic rewards are sparse, agents lack the motivation or direction on how to explore the environment. An effective approach for encouraging exploration in the single-agent setting is to give the agent the prediction error of a novelty module as intrinsic reward. This novelty module is trained to predict the agent’s next state given its current state and action. Thus, giving this prediction error to the agent as intrinsic reward motivates the agent to explore parts of the environment which are novel to it. In this work, we extend this self-supervised exploration method to cooperative MARL. Unlike in single-agent environments, exploration in cooperative multi-agent environments would be more efficient if agents coordinate how they explore the environment. Here, we propose a new novelty module architecture and intrinsic reward formulation that encourage coordinated exploration. In particular, we design a two-headed novelty module that learns to predict both the agent’s next state and the joint next state of all agents. We then give as intrinsic reward to the agent the sum of the individual prediction error and the joint prediction error of this two-headed novelty module. We demonstrate in two sparse reward cooperative navigation scenarios that the combination of our novelty module architecture and intrinsic reward formulation improves the performance of standard cooperative MARL algorithms the most.

희박한 보상 환경에서의 학습은 표준 협동 MARL (Multi-Agent Reinforcement Learning) 알고리즘에 대한 도전으로 남아 있습니다. 외적 보상은 드물기 때문에 에이전트는 환경을 탐색하는 방법에 대한 동기 나 지시가 부족합니다. 단일 에이전트 설정에서 탐색을 장려하는 효과적인 방법은 에이전트에게 참신 모듈의 예측 오류를 고유 보상으로 제공하는 것입니다. 이 참신 모듈은 현재 상태와 행동이 주어지면 상담원의 다음 상태를 예측하도록 훈련되었습니다. 따라서, 본질적 보상으로서 에이전트에이 예측 에러를주는 것은 에이전트가 새로운 환경의 일부를 탐색하도록 동기를 부여한다. 이 연구에서 우리는이 자체 감독 탐사 방법을 협동적인 MARL로 확장합니다. 단일 에이전트 환경에서와 달리 에이전트가 환경을 탐색하는 방식을 조정하면 협업 다중 에이전트 환경에서보다 효율적으로 탐색 할 수 있습니다. 여기, 우리는 새로운 탐사 모듈 아키텍처와 조정 된 탐사를 장려하는 본질적인 보상 공식을 제안합니다. 특히, 에이전트의 다음 상태와 모든 에이전트의 공동 다음 상태를 예측하는 방법을 학습하는 양방향 헤드 참신 모듈을 설계합니다. 그런 다음이 쌍두 참신 모듈의 개별 예측 오류와 공동 예측 오류의 합을 에이전트에 본질적인 보상으로 제공합니다. 우리는 두 가지 희박한 보상 협력 탐색 시나리오에서 우리의 참신 모듈 아키텍처와 고유 보상 공식의 조합이 표준 협동 MARL 알고리즘의 성능을 가장 향상 시킨다는 것을 보여줍니다.

서지기타정보

서지기타정보
청구기호 {MEE 20153
형태사항 iii, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : Roben Delos Reyes
지도교수의 영문표기 : Yung Yi
지도교수의 한글표기 : 이융
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 17-19
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서