In this paper, we research the effectiveness of utilizing textual information for reinforcement learning agent while conducting reinforcement learning. We design a hierarchical policy architecture, and make the low-level policy to take on fine-grained control of the agent and let the high-level policy to order the low-level policy how to navigate, dividing the process of game control into high-level planning and low-level control. We give the manual text as an input to high-level policy to utilize the high-level planning information contained in the text. We experiment with Montezuma's Revenge on gym environment and compared performance of the model using textual information with the model that doesn't use textual information.
본 논문에서는 강화학습을 수행함에 있어서 수행 태스크에 대한 자연어 설명문이 주어졌을 때, 해당 설명을 활용해 강화학습 에이전트의 성능을 높이는 방법을 연구한다. 우리는 계층적 구조를 가지는 강화학습 정책망을 설계한 후, 하위 계층의 정책에게는 움직임에 대한 미세한 제어를 맡게하고 상위 계층의 정책으로 하여금 캐릭터를 어떻게 움직일지에 대한 명령을 하위 계층의 에이전트에게 내리게 함으로서, 게임의 수행단계가 상위 단계의 플래닝과 하위 단계의 제어로 구분되게 하였다. 이렇게 구분한 상위 계층의 정책망에 태스크 정보를 포함한 텍스트를 입력으로 넣어줌으로서 텍스트에 내재된 계획정보를 활용할 수 있게 하였다. 우리는 아타리 학습 환경에 있는 몬테주마의 복수 게임상에서 실험을 진행해, 제안한 모델을 통해 텍스트를 사용했을 때와 사용하지 않았을 때와의 성능비교를 진행하였다.