In this paper, we will discuss a Bayesian learning technique in multitask reinforcement learning situations. Multitask reinforcement learning aims to make learning more efficient and faster by sharing the information that is learned in various tasks, that is, information that can be commonly applied in multiple tasks. In recent research, it has been possible to share initial policy information by restricting the Kullback-Leibler divergence between the learning policies of each task and the initial policy shared by all tasks. However, if there are environments with conflicting goals in a given set of environments, this initial policy sharing scheme may prevent agents from learning the conflicting environments because it transfers unprofitable knowledge to each task. To solve this problem, this paper suggests the Bayesian methodology in learning an initial policy and a method to learn Bayesian deep artificial neural network policies. By using the Bayesian methodology the distribution of initial policy parameter is learned. So each task-specific policy can deal with the uncertainty of the knowledge transferred from the initial policy. The proposed method is evaluated in the grid world environments and shows more stable and higher performance than the prior work.
이 논문에서는 다중환경 강화학습 상황에서의 베이지안 학습 기법에 대해 다룰 것이다. 다중환경 강화학습은 여러 환경에서 학습되는 에이전트들이 서로 도움이 되는 정보들, 즉 여러 환경에서 공통적으로 적용될 수 있는 정보들을 공유함으로 보다 효율적이고 빠른 학습을 하는 것을 목표로 한다. 이에 관해 최근 이루어진 연구에서는 각 환경별 학습 정책과 모든 환경에 공유되는 초기 정책을 따로 두어 이 두 정책간의 ‘쿨백-라 이블러 발산 (Kullback–Leibler divergence)’을 제한하는 방식으로 초기 정책이 정보를 공유받을 수 있게 하였다.그러나 만약 주어진 환경집합에 서로 상반된 목표를 가지는 두개의 환경이 존재한다면 이러한 초기 정책 공유 방식이 각 환경에 잘못된 정보를 전달하게 되어 오히려 다중환경 학습을 방해하게 된다. 이러한 문제점을 해결하기 위해 이 논문에서는 초기정책을 학습하는데 있어서 베이지안 방법론을 사용하였으며 베이지안 심층 인공신경망 기반 정책을 학습하기위한 방법을 제시한다. 베이지안 방법론을 통해 초기정책 신경망 변수의 확률분포가 학습되기 때문에 각 테스크별 행동정책이 초기정책으로부터 공유되는 정보의 신뢰도를 고려할 수 있다. 제안된 방법은 2-d 미로 환경에서 검증되었으며 기존의 방법보다 더 안정적이고 높은 성능을 가짐을 확인하였다.