서지주요정보
Learning multiple roles of heterogeneous multi-agent system with centralized team training = 중앙집중식 팀 학습을 통한 이기종 멀티에이전트 시스템의 다중 역할 학습
서명 / 저자 Learning multiple roles of heterogeneous multi-agent system with centralized team training = 중앙집중식 팀 학습을 통한 이기종 멀티에이전트 시스템의 다중 역할 학습 / Kyujin Choi.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036907

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MGT 21006

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

In multi-agent reinforcement learning, getting cooperative behavior among agents is one of the most important issues. In addition, in the field of heterogeneous multi-agent reinforcement learning with different types of homogeneous agents, it is crucial to obtain cooperative behavior between different groups of agents, and also important to perform roles of same groups of agents. Learning joint-action set of value using centralized training is an attractive way to getting cooperative behavior in multi-agent reinforcement area. However, this training method have limitations in the heterogeneous reinforcement learning field and require additional work. Our solution is Two Branch Heterogeneous Centralized Training (TBHCT), a novel heterogeneous multi-agent reinforcement learning method that can learn multiple roles with centralized training for cooperative behavior. During training, we divide the training process into two branches, branch one is training the same types of agents with role rewards and branch two is training all the heterogeneous agents with total reward. Our results in 5 versus 5 robot soccer game system with simulated physics for heterogeneous soccer robots setting show that TBHCT can learn cooperative soccer strategies of one goalkeeper, two defenders, and two forwards. Also, the soccer robots trained with the TBHCT algorithm achieve a wining rate of 80% or more in all matches of 90 minutes.

서로 다른 유형의 에이전트들이 존재하는 이기종 멀티에이전트 강화학습(MARL) 분야에서는 서로 다른 에이전트 그룹 간의 협력 행동을 얻는 것이 중요하며 동시에 동일한 에이전트 그룹의 역할을 수행하는 것도 중요하다. 중앙집중식 학습(Centralized Training)을 사용하여 협력 행동들을 학습하는 것은 멀티에이전트 강화학습 영역에서 협력 행동을 얻는 매력적인 방법이다. 그러나 이 학습 방법은 이기종 강화학습 분야에서 한계가 있으며 추가 작업이 필요하다. 우리의 솔루션은 협력행동을 위한 중앙집중식 학습과 더불어 여러 역할을 학습할 수 있는 새로운 이기종 멀티에이전트 강화학습 방법인 2분기 이기종 중앙집중식 학습(TBHCT)이다. 학습 중에 학습 프로세스를 두 개로 나누고, 1분기는 역할 보상으로 동일한 유형의 에이전트를 학습하고 2분기는 전체 보상으로 모든 이기종 에이전트를 학습한다. 물리법칙이 적용된 로봇 시뮬레이터에서 진행되는 5대5 로봇축구 경기에서의 학습 결과는 TBHCT가 골키퍼 1명, 수비수 2명, 공격수 2명의 협동 축구 전략을 배울 수 있음을 보여준다. 또한 TBHCT 알고리즘으로 학습된 축구로봇들이 90 분의 모든 경기에서 80% 이상의 승률을 달성하였다.

서지기타정보

서지기타정보
청구기호 {MGT 21006
형태사항 iv, 60 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최규진
지도교수의 영문표기 : Dongsoo Har
지도교수의 한글표기 : 하동수
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 조천식녹색교통대학원,
서지주기 References : p. 56-59
QR CODE qr code