서지주요정보
Conjoined architecture for heterogeneous multi-agent reinforcement learning = 다기종 멀티에이전트 강화학습을 위한 결합 아키텍처
서명 / 저자 Conjoined architecture for heterogeneous multi-agent reinforcement learning = 다기종 멀티에이전트 강화학습을 위한 결합 아키텍처 / Chansol Hong.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042631

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24019

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this dissertation, we propose the conjoined architecture designed for multi-agent reinforcement learning in environments using global state and heterogeneous agents. Under such environments, semantic mismatches in both input and output layers arise and hinder contemporary multi-agent reinforcement learning algorithms to efficiently train under centralized-training decentralized-execution settings using parameter sharing. On that regard, we propose the conjoined architecture capable of effectively train in environments using global state and heterogeneous agents. The conjoined architecture is a partially parameter sharing architecture where heterogeneous agents are considered as a single team to be trained together using global state as the input to be processed through a team network. Unlike traditional fully-centralized training, the conjoined architecture factorizes the output joint action space into individual agents' action spaces represented with agents' own weights and biases. We exemplify the use of the conjoined architecture through proposing two actor-critic algorithms multi-actor-conjoined-critic and conjoined-actor-conjoined-critic. A conjoined critic evaluates all agents' actions as a single sample. Instead of evaluating joint action-space values for all action combinations of agents, the conjoined critic outputs individual Q-values for each agent to reduce output dimension size. Through value decomposition network, individual Q-values are summed to estimate team Q-values, which is the optimization objective for the critic. For multi-actor-conjoined-critic, individual actors are trained with value estimations from conjoined critic while sharing their internal state among each other through bandwidth-limited communication channel. For conjoined-actor-conjoined-critic, a parameter-efficient conjoined actor is used in addition to the conjoined critic to replace individual actors. We evaluate the proposed algorithms in AI Soccer environment that uses global state and heterogeneous agents and compare the results with existing algorithms to demonstrate conjoined architecture's effectiveness. Finally, we conduct ablation studies to investigate effects of components in the proposed algorithms.

본 논문에서는 전역 정보 및 다기종 에이전트를 사용하는 환경에서 효과적으로 멀티에이전트 강화학습을 수행하기 위한 결합 아키텍처를 제안한다. 전역 정보 및 다기종 에이전트를 사용하는 환경에서는 입력과 출력단에 의미 불일치 문제가 발생하여 기존 멀티에이전트 강화학습 알고리즘이 자주 사용하는 공유 파라미터 기법을 적용할 수 없어 학습 효율이 하락한다. 이에 대응하기 위해 제안하는 결합 아키텍처는 부분적 파라미터 공유 기법으로, 팀 네트워크를 통해 다기종 에이전트를 하나의 팀으로 간주하여 학습을 진행한다. 단, 기존의 완전 중앙집중식 학습과 달리 결합 아키텍처는 출력단으로 공동 행동 공간을 설정하는 대신, 각자 별개의 가중치와 편향을 사용하는 개별 에이전트의 행동 공간으로 설정한다. 다중-행위자-결합-비평자 알고리즘 및 결합-행위자-결합-비평자 알고리즘을 결합 아키텍처의 사용례로 제안하여, 전역 정보 및 다기종 에이전트를 사용하는 인공지능 축구 환경에서 제안하는 알고리즘과 기존 알고리즘을 비교하는 것을 통해 결합 아키텍처의 효용성을 보인다. 또한 제안하는 알고리즘에서 일부분을 제외하여 성능 변화를 분석하는 것을 통해 알고리즘 각 부분의 유효성을 입증한다.

서지기타정보

서지기타정보
청구기호 {DEE 24019
형태사항 vi, 59 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍찬솔
지도교수의 영문표기 : Jong-Hwan Kim
지도교수의 한글표기 : 김종환
수록잡지명 : "AI World Cup: Robot-Soccer-Based Competitions". IEEE Transactions on Games, v.13.no.4, pp.330-341(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 54-57
주제 Machine learning
Artificial intelligence
Reinforcement learning
Multi-agent reinforcement learning
Heterogeneous agents
기계학습
인공지능
강화학습
멀티에이전트 강화학습
다기종 에이전트
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서