As active research of deep reinforcement learning makes it possible to apply reinforcement learning to many high-dimensional environments, the sample efficiency of reinforcement learning has been more important. Learning strategy that utilizes background knowledge from previous tasks to new tasks, such as transfer learning and meta-learning, is one common approach for enhancing sample efficiency. In this work, we propose a meta-learning framework Meta-Distillation for Reinforcement Learning (MDRL) that efficiently transfers expert policies from previous environments to a new policy in an unseen environment. A weighted sum of discrepancies between current policy and expert policies is added to policy update loss, and the weights are determined by a weight network that is meta-trained to help training by considering tasks, training sample, and policy training progress. MDRL succeed to data-efficiently adapt new task when given distribution of environment is scarce and diverse.
심층 강화 학습의 활발한 연구로 많은 고차원 환경에 강화 학습을 적용하게 되면서 강화 학습 샘플 효율성의 중요성이 증가하고 있다. 메타 학습과 같이 기존 환경의 배경 지식을 새로운 환경에서의 학습에 활용하는 것은 이런 샘플 효율성을 증가시키는 방법 중 하나이다. 이 연구에서는 여러 개의 기존 환경에서 각각 학습된 정책을 현재 환경 정책에 효과적으로 전이시킬 수 있는 메타 학습 방법을 제안한다. 강화 학습 정책 손실 함수에 기존 정책과의 차이를 가중합한 손실 함수를 추가해 필요한 정책만 선택적으로 전이하며, 각 정책에 대한 가중치는 환경, 학습 샘플, 정책 학습 상태를 고려하여 학습에 도움이 되도록 메타 학습된 가중치 네트워크에 의해 결정된다. 제안된 모델은 학습 환경의 수가 적거나 환경간 특징이 상이한 실험 조건에서 효율적으로 정책 최적화에 성공했다.