Bayesian reinforcement learning (BRL) provides a formal framework to optimally trading off exploration and exploitation in reinforcement learning. Unfortunately, it is generally intractable to find the Bayes-optimal behavior since the uncertainty in the model of the environment has to be taken into account. In this paper, we present a heuristic search approach to the model-based BRL. In addition, we present potential-based reward shaping for model-based BRL that makes the search more effective. The potential functions we propose are domain-independent in the sense that they do not require any knowledge about the actual environment model. We show that the proposed potential functions generally improve the quality of search, enabling our heuristic search algorithm to outperform state-of-the-art BRL algorithms in standard benchmark domains.
강화학습 (Reinforcement Learning)은 의사결정 모델인 에이전트와 환경과의 상호작용으로, 에이전트는 환경에게 행동을 환경은 행동에 대한 상태변화와 보상을 에이전트에게 주고 받으며 이루어진다. 강화학습에서 에이전트의 목표는 상호작용으로 얻게 되는 보상들의 합을 최대화 시키는 것으로, 이를 당성하기 위해서는 현재까지 얻은 정보를 바탕으로한 최선의 행동과 더 많은 정보를 얻기 위한 행동 사이의 균형을 유지 해야하는 문제를 해결해야한다.
본 연구는 행동의 균형 문제 다룰 수 있는 베이지안 강화학습에 관한 연구로서 베이지안 측면에서 최적의 행동을 이끌어 낼 수 있는 실시간 휴리스틱 서치 알고리즘을 제안했다. 그리고 더 나아가 강화학습분야에서 자주 제기되는 보상의 희귀현상을 해결하고자 기존의 보상함수 조형기법을 베이지안 강화학습 알고리즘에 적용함으로서 초기 학습과정에서 큰 성능향상을 이끌어 냈다.