Deep reinforcement learning (RL) is confronted by critical challenges, particularly the issue of overfitting and limited generalization ability. Traditional RL models, though proficient in their training tasks, face performance degradation when presented with unseen test tasks. Meta-reinforcement learning (meta-RL) proposes a solution by training agents with a range of tasks to develop an inductive bias, which ideally allows the agents to infer the underlying structure of new tasks and rapidly adapt their strategies accordingly. However, a fundamental constraint in current meta-RL paradigms is their restricted training task distribution, limiting adaptability to new environments, especially out-of-distribution (OOD) dynamics.
To address these limitations, we introduce two novel meta-RL algorithms based on training policies on imaginary tasks generated by the learned dynamics model. We first introduce the Latent Dynamics Mixture (LDM), an innovative context-based meta-RL framework enhancing generalization to unseen tasks. LDM employs imaginary tasks derived from latent beliefs for more effective meta-training, eliminating the need for further policy updates during test phases. Despite its promise, LDM operates within parametric task variations, prompting our exploration into non-parametric task variability with Subtask Decomposition and Virtual Training (SDVT). SDVT transcends traditional constraints by decomposing tasks into elementary subtasks. SDVT leverages a Gaussian mixture variational autoencoder to discern effective subtask representations, creating a parameterized understanding of complex tasks.
We present rigorous evaluations of LDM and SDVT across diverse meta-RL benchmarks, maintaining strict separation between training and test distributions, and showcasing their superiority in unfamiliar tasks without necessitating test-time network updates. These methodologies signify a breakthrough in meta-RL, employing imaginary tasks generated from learned latent task dynamics. We outline this transformative journey, emphasizing the shift from mitigating overfitting in standard task distributions to mastering non-parametric tasks. The findings herein lay the foundation for future innovations, steering the field towards more adaptable and generalizable reinforcement learning.
심층 강화학습은 과적합 및 제한된 일반화 능력이라는 중요한 문제에 직면하고 있다. 전통적인 강화학습 모델은 학습 태스크에는 능숙하지만, 새로운 태스크에 대한 대처 능력이 부족하다. 이를 해결하고자, 메타 강화학습은 다양한 태스크에 대한 훈련을 통해 태스크 분포를 추론하고 그에 따라 정책을 빠르게 적응시키는 것을 목표로 한다. 그러나 현재 메타 강화학습의 기본적인 제약은 제한된 학습 태스크 분포로, 특히 분포 외 태스크에 대한 적응능력이 제한적이다.
이러한 문제를 해결하기 위해, 학습된 동적 모델을 활용해 가상 태스크를 생성하고 이에 대해 정책을 사전 훈련시키는 두 가지 메타 강화학습 알고리즘을 제안한다. 전반부에서는 새로운 태스크에 대한 일반화를 위한 잠재 역학 혼합 알고리즘을 제안한다. 잠재적인 분포에서 파생된 가상 태스크를 사용하여 보다 다양한 태스크에 대해 정책을 대비시켜, 테스트 과정에서 추가적인 정책 학습을 필요로 하지 않는다. 본 알고리즘을 비매개변수적 태스크 변화 상황에 확장하기 위해, 후반부에서는 혼합 가우시안 분포를 활용하여 효과적인 하위 태스크 표현을 파악하는 하위 태스크 분해 및 가상훈련 방식을 제안한다. 훈련 및 테스트 분포 사이의 엄격한 구분을 유지한 다양한 강화학습 벤치마크를 통해 제안한 두 방식의 우수성을 검증하였다.