서지주요정보
Learning coordinated behaviors in multi-agent reinforcement learning = 다중 에이전트 강화학습의 행동 조화 학습 방법 연구
서명 / 저자 Learning coordinated behaviors in multi-agent reinforcement learning = 다중 에이전트 강화학습의 행동 조화 학습 방법 연구 / Woojun Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040289

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Multi-Agent Reinforcement Learning (MARL) is a learning framework that learns intelligent autonomous agents to take actions based on local observation for achieving a common goal or individual goals. With the success of reinforcement learning in the single-agent domain, MARL is being actively studied and applied to real-world problems such as traffic control systems and connected self-driving cars, which can be modeled as multi-agent systems requiring coordinated control. In this thesis, we aim to develop MARL algorithms that learn the coordinated behaviors of multiple agents, which is a core challenge of MARL, to achieve high coordination or cooperation among agents. For this, we consider two approaches to enhance coordination in both explicit and implicit ways: communication-based MARL and coordinated exploration-based MARL. Under these approaches, we propose several learning algorithms to improve coordination between agents. In the first half, we propose two communication-based MARL algorithms to enhance coordination explicitly. Communication is one of the core components for learning coordinated behavior in multi-agent systems since communication enables multiple agents to interact with other agents directly. In this first half, we aim to address the fundamental question that what content should be included in a message and how can we learn the message efficiently and robustly. For efficient and robust communication schemes, we first propose a new learning technique named Message-dropout to improve performance and robustness against communication errors under two application scenarios: 1) multi-agent reinforcement learning with direct message communication among agents and 2) centralized training with decentralized execution. In both scenarios, we show that the proposed message-dropout technique with a proper dropout rate improves the reinforcement learning performance significantly in terms of the training speed and the steady-state performance in the execution phase and makes learning robust against communication errors in the execution phase. Second, we propose a new communication scheme named Intention Sharing which harnesses the benefit of communication beyond sharing partial observation. Existing communication methods adopt end-to-end training based on differential communication channels and thus the trained message encodes the past and current information to maximize the other agents' objectives. Thus, messages learned by the existing communication schemes do not capture any future information or intention of agents. To solve this problem, the proposed intention-sharing method enables multiple agents to share their intentions by sharing their intention by generating an imagined trajectory capturing its own intention and using it as the content of the message by applying an attention mechanism to learn the relative importance of the components. We provide extensive experimental results and ablation studies to show the effectiveness of the proposed algorithms. In the second half, we propose two coordinated exploration methods that yield implicit coordination between agents. Exploration is an essential element required in RL due to the assumption that all state-action pairs should be visited infinitely often to guarantee the convergence of model-free RL and it becomes more challenging in MARL since the state-action space grows exponentially as the number of agents increases. Hence, exploration of autonomous agents should be correlated with those of other agents to effectively visit meaningful unseen states. For this, we first propose a new approach to mutual information-based coordination for MARL to coordinate simultaneous actions among multiple agents. The proposed method is based on introducing a common latent variable to induce mutual information among simultaneous actions of multiple agents and on a variational lower bound on MI that enables tractable optimization. Under the proposed formulation, applying policy iteration by redefining value functions, we propose the practical algorithm to learn the coordination of simultaneous actions among multiple agents. We also propose a new framework based on entropy regularization for adaptive exploration in MARL to handle the multi-agent exploration-exploitation trade-off. The proposed framework allocates different target entropy across agents over time based on our newly-proposed metric for the degree of necessary exploration for each agent. We provide various experiments including a didactic example and popular MARL benchmark environments.

다중 에이전트 강화 학습은 공통의 목표 혹은 개인의 목표를 이루기 위해 관측을 바탕으로 행동을 결정하는 다수의 자율지능 에이전트를 훈련하는 학습 구조이다. 하나의 에이전트 기반 강화학습의 성공을 시작으로, 다중 에이전트 강화 학습은 활발히 연구되고 있으며, 조화된 제어를 해야 하는 다중 에이전트 시스템으로 모델링되는 교통 제어 시스템, 자율주행 자동차와 같은 현실 문제에 적용되고 있다. 본 학위 논문에서는 에이전트 간 조화 혹은 협력을 강화하기 위해, 다중 에이전트 강화학습의 핵심 문제인, 다중 에이전트의 조화 행동 학습을 위한 알고리즘 개발을 목표로 한다. 이를 위해 명시적 및 암시적 방법을 이용하여 조화를 강화하는 두 가지 접근법을 고려한다. 두 접근법을 기반으로 에이전트 간 조화를 증진하는 여러 알고리즘을 제안한다. 전반부에서는 명시적으로 조화를 증진하기 위해서 두 가지 통신 기반 다중 에이전트 강화학습 알고리즘을 제안한다. 통신은 에이전트 간의 소통을 직접적으로 연결하기 때문에, 다중 에이전트 시스템에서 조화 행동을 학습하는데 핵심 요소 중 하나이다. 전반부에서는 어떠한 표현 또는 콘텐츠를 메시지에 담아야 하고 메시지를 효율적이고 강인하게 학습할 수 있을지에 대한 근본적인 질문을 해결하고자 한다. 효율적이고 강인한 통신 방법으로, 메시지-드롭아웃이라는 새로운 학습 방법을 다음 두 가지 시나리오에서 제안한다: 1) 에이전트 간 직접적 메시지 통신을 가정한 다중 에이전트 강화학습과 2) 중앙집중형 학습 및 분산형 실행. 두 시나리오에서, 적절한 드롭아웃 비율을 가지는 메시지-드롭아웃 방법은 학습 속도 및 최종 성능을 증가시키고 통신오류에 대해서 강인하게 학습하는 것을 보였다. 두 번째로, 부분 관측을 제어하는 이득을 넘어선 통신 이득을 가져오기 위한 의도 공유 통신 방법을 제안한다. 기존의 통신 방법은 미분할 수 있는 통신채널을 기반으로 한 엔드-투-엔트 방법을 이용하여 다른 에이전트의 목적함수를 최대화하기 위한 과거 및 현재의 정보를 추출하여 메시지를 구성한다. 따라서 기존의 통신 방법으로 학습된 메시지는 미래 정보 및 에이전트의 의도를 담지 못한다. 이러한 문제를 해결하기 위해서, 제안한 의도 공유 방법은 의도를 담는 가상의 경로를 생성하고 각 구성요소의 상대적 중요도를 학습하는 어텐션 메커니즘을 이용하여 메시지에 담아 에이전트 간 의도를 공유하게 만든다. 제안된 두 알고리즘의 효과를 보여주기 위해 광범위한 실험 결과와 다양한 분석을 제공한다. 후반부에서는 암시적 조화를 만드는 두 가지 조화된 탐험 방법을 제안한다. 탐험은 모델-프리 강화학습 알고리즘의 수렴을 보장하기 위해 모든 상태-행동을 경험해야 한다는 가정 때문에 강화학습에서 매우 중요하고, 그것은 다중 에이전트 강화학습에서는 에이전트 수가 늘어날수록 상태-행동 공간이 기하급수적으로 커지기 때문에 더욱 어려워진다. 따라서 자율 에이전트의 탐험이 보지 못한 의미 있는 상태에 효과적으로 방문하기 위해, 다른 에이전트들의 탐험과 조화되어야 한다. 이를 위해서 다중 에이전트의 동시 행동의 조화를 위한, 상호 정보 기반 새로운 조화 증진 방법을 제안한다. 제안한 방법은 상호 정보를 유도하기 위해서 공통 잠재 변수를 도입하고 최적화를 가능케 하는 상호 정보의 변분 하한을 기초한다. 제안된 공식에서 값 함수를 재정의하여 정책 반복을 적용하는 다중 에이전트 강화학습을 위한 실제적인 알고리즘을 제안하여 여러 에이전트 간의 동시 동작 조정을 학습한다. 또한 다중 에이전트 탐색-이용 트레이드오프를 처리하기 위해 다중 에이전트의 적응형 탐색을 위한 엔트로피 정규화에 기반한 새로운 구조를 제안한다. 제안된 구조는 각 에이전트에 필요한 탐색 정도에 대해 새로 제안된 메트릭을 기반으로 에이전트 차원 및 시간 차원에 걸쳐 서로 다른 목표 엔트로피를 할당한다. 제안된 두 알고리즘의 효과를 보여주기 위해 광범위한 실험 결과와 다양한 분석을 제공한다.

서지기타정보

서지기타정보
청구기호 {DEE 23018
형태사항 vi, 97 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김우준
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 89-96
주제 Reinforcement learning
Multi-agent reinforcement learning
Coordinated behaviors
Communication
Exploration
강화학습
다중 에이전트 강화학습
행동 조화
통신
탐험
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서