서지주요정보
Structure-aware transformer policy for inhomogeneous multi-task reinforcement learning = 불균일 다중 작업 강화학습을 위한 구조 인식 트랜스포머 정책 연구
서명 / 저자 Structure-aware transformer policy for inhomogeneous multi-task reinforcement learning = 불균일 다중 작업 강화학습을 위한 구조 인식 트랜스포머 정책 연구 / Sunghoon Hong.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039068

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 22019

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Modular Reinforcement Learning, where the agent is assumed to be morphologically structured as a graph, for example composed of limbs and joints, aims to learn a policy that is transferable to a structurally similar but different agent. Compared to traditional Multi-Task Reinforcement Learning, this promising approach allows us to cope with inhomogeneous tasks where the state and action space dimensions differ across tasks. Graph Neural Networks are a natural model for representing the pertinent policies, but a recent work has shown that their multi-hop message passing mechanism is not ideal for conveying important information to other modules and thus a transformer model without morphological information was proposed. In this work, we argue that the morphological information is still very useful and propose a transformer policy model that effectively encodes such information. Specifically, we encode the morphological information in terms of the traversal-based positional embedding and the graph-based relational embedding. We empirically show that the morphological information is crucial for modular reinforcement learning, substantially outperforming prior state-of-the-art methods on multi-task learning as well as transfer learning settings with different state and action space dimensions.

모듈 강화학습은 그래프 형태의 에이전트가 구조적으로 비슷하지만 다른 에이전트에 전이될 수 있는 정책을 학습하는 것을 목표로 한다. 전통적인 다중 작업 강화학습과 비교하여, 이러한 접근은 상태-행동 공간 차원이 불균일한 상황에 대처할 수 있다. 그래프 신경망은 그래프 구조를 반영한 정책을 표현하기에 자연스러운 모델이지만, 최근의 연구는 멀티홉 메시지 전달 매커니즘이 다른 모듈에 중요한 정보를 전달하기에 부족함을 지적하고 구조 정보를 배제한 트랜스포머 모델을 제안했다. 본 논문에서는 구조 정보를 효과적으로 활용하기 위해 트리 순회 기반의 위치 임베딩과 그래프 기반의 관계 임베딩을 통한 구조 임베딩을 사용하는 트랜스포머 모델을 제안한다. 그리고, 제안한 모델이 기존의 방법론보다 다중 작업 학습과 전이 학습에서 성능이 향상되는 것을 통해 구조 정보가 모듈 강화학습에 중요하다는 것을 실험적으로 보인다.

서지기타정보

서지기타정보
청구기호 {MAI 22019
형태사항 iii, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍성훈
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 17-19
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서