Most deep reinforcement learning algorithms are sample inefficient in complex and rich environments, so they need a large amount of sample to adapt to a new task. However, in the real world, adapting a new task quickly with a small amount of sample is essential. One way to solve this problem is the meta-learning that learns how to learn, and studies on meta-learning have been performed. However, prior meta-learning methods only consider the one model for adapting a new task, but having the only model for adaptation is not enough for more complex tasks. In this work, we propose a meta-learning method with multiple models for adapting to a new task in reinforcement learning (meta-RL). The proposed meta-RL algorithm is evaluated on a variety of locomotion tasks, and we show that the proposed algorithm is more effective at learning a new task.
대부분의 심층 강화학습 알고리즘은 복잡하고 풍부한 환경에서 샘플 비효율적이므로, 새로운 작업에 적응하기 위해 많은 양의 샘플을 필요로 한다. 그러나 실제 환경에서는 적은 양의 샘플로 빠르게 주어진 새로운 작업에 적용하는 것이 중요하다. 이 문제를 해결하기 위한 한 가지 방법은 메타 학습을 통해 학습하는 것을 배우는 것이고, 이에 대한 연구가 수행되어왔다. 이전의 연구들은 하나의 모델을 가지고 새로운 작업에 학습하는 것을 가정했지만, 적응을 위한 하나의 모델만 갖는 것은 더 복잡한 작업에는 충분하지 않다.본 논문에서는 강화학습에서 새로운 작업에 적응하기 위한 다중 모델을 사용한 메타 학습 방법을 제안하다. 제안된 메타 강화학습 알고맂므은 다양한 이동 동작에 대해서 평가되며, 제안된 알고리즘이 새로운 작업에 학습하는 것에 보다 효과적임을 보여준다.