서지주요정보
Meta-reinforcement learning with imaginary tasks = 가상 태스크를 활용한 메타 강화학습
서명 / 저자 Meta-reinforcement learning with imaginary tasks = 가상 태스크를 활용한 메타 강화학습 / Suyoung Lee.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042619

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep reinforcement learning (RL) is confronted by critical challenges, particularly the issue of overfitting and limited generalization ability. Traditional RL models, though proficient in their training tasks, face performance degradation when presented with unseen test tasks. Meta-reinforcement learning (meta-RL) proposes a solution by training agents with a range of tasks to develop an inductive bias, which ideally allows the agents to infer the underlying structure of new tasks and rapidly adapt their strategies accordingly. However, a fundamental constraint in current meta-RL paradigms is their restricted training task distribution, limiting adaptability to new environments, especially out-of-distribution (OOD) dynamics. To address these limitations, we introduce two novel meta-RL algorithms based on training policies on imaginary tasks generated by the learned dynamics model. We first introduce the Latent Dynamics Mixture (LDM), an innovative context-based meta-RL framework enhancing generalization to unseen tasks. LDM employs imaginary tasks derived from latent beliefs for more effective meta-training, eliminating the need for further policy updates during test phases. Despite its promise, LDM operates within parametric task variations, prompting our exploration into non-parametric task variability with Subtask Decomposition and Virtual Training (SDVT). SDVT transcends traditional constraints by decomposing tasks into elementary subtasks. SDVT leverages a Gaussian mixture variational autoencoder to discern effective subtask representations, creating a parameterized understanding of complex tasks. We present rigorous evaluations of LDM and SDVT across diverse meta-RL benchmarks, maintaining strict separation between training and test distributions, and showcasing their superiority in unfamiliar tasks without necessitating test-time network updates. These methodologies signify a breakthrough in meta-RL, employing imaginary tasks generated from learned latent task dynamics. We outline this transformative journey, emphasizing the shift from mitigating overfitting in standard task distributions to mastering non-parametric tasks. The findings herein lay the foundation for future innovations, steering the field towards more adaptable and generalizable reinforcement learning.

심층 강화학습은 과적합 및 제한된 일반화 능력이라는 중요한 문제에 직면하고 있다. 전통적인 강화학습 모델은 학습 태스크에는 능숙하지만, 새로운 태스크에 대한 대처 능력이 부족하다. 이를 해결하고자, 메타 강화학습은 다양한 태스크에 대한 훈련을 통해 태스크 분포를 추론하고 그에 따라 정책을 빠르게 적응시키는 것을 목표로 한다. 그러나 현재 메타 강화학습의 기본적인 제약은 제한된 학습 태스크 분포로, 특히 분포 외 태스크에 대한 적응능력이 제한적이다. 이러한 문제를 해결하기 위해, 학습된 동적 모델을 활용해 가상 태스크를 생성하고 이에 대해 정책을 사전 훈련시키는 두 가지 메타 강화학습 알고리즘을 제안한다. 전반부에서는 새로운 태스크에 대한 일반화를 위한 잠재 역학 혼합 알고리즘을 제안한다. 잠재적인 분포에서 파생된 가상 태스크를 사용하여 보다 다양한 태스크에 대해 정책을 대비시켜, 테스트 과정에서 추가적인 정책 학습을 필요로 하지 않는다. 본 알고리즘을 비매개변수적 태스크 변화 상황에 확장하기 위해, 후반부에서는 혼합 가우시안 분포를 활용하여 효과적인 하위 태스크 표현을 파악하는 하위 태스크 분해 및 가상훈련 방식을 제안한다. 훈련 및 테스트 분포 사이의 엄격한 구분을 유지한 다양한 강화학습 벤치마크를 통해 제안한 두 방식의 우수성을 검증하였다.

서지기타정보

서지기타정보
청구기호 {DEE 24007
형태사항 viii, 74 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이수영
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
수록잡지명 : "Improving Generalization in Meta-RL with Imaginary Tasks from Latent Dynamics Mixture". Advances in Neural Information Processing Systems 34, (2021)
수록잡지명 : "Parameterizing Non-Parametric Meta-Reinforcement Learning Tasks via Subtask Decomposition". Advances in Neural Information Processing Systems 36, (2023)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 66-71
주제 Reinforcement learning
Meta-reinforcement learning
Generalization
Imaginary tasks
Subtask decomposition
강화학습
메타 강화학습
일반화
가상 태스크
하위 태스크 분해
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서