In the standard reinforcement learning setting, the agent learns optimal policy solely from state transitions and rewards from the environment. We consider an extended setting where a trainer additionally provides feedback on the actions executed by the agent. This requires appropriately incorporating the feedback, even when the feedback is not necessarily accurate. In this paper, we present a Bayesian approach to this extended reinforcement learning setting. Specifically, we extend Kalman Temporal Difference learning to compute the posterior distribution over Q-values given the state transitions and rewards from the environment as well as the feedback from the trainer. Through experiments on standard reinforcement learning tasks, we show that learning performance can be significantly improved even with inaccurate feedback.
일반적인 강화학습 상황에서 에이전트는 수행한 행동에 따른 환경 상태의 변화와 보상만으로 최적의 행동정책을 학습한다. 하지만 본 연구에서는 환경 상태의 변화와 보상뿐만 아니라 에이전트가 수행한 행동에 대해서 전문가로부터 피드백을 받는 추가적인 정보가 있는 상황을 고려한다. 이러한 상황에서는 학습모델에 전문가 피드백을 적절하게 통합시켜야 하는데, 피드백이 정확하지 않을 수도 있는 상황 또한 고려하여야 한다. 본 논문에서는 이러한 확장된 강화학습 상황에 대한 베이지안 접근법을 제시한다. 특히 환경 상태의 변화와 보상뿐만 아니라 전문가 피드백 또한 주어졌을 때, 칼만 시간차 학습을 확장한 모델을 이용하여 행동 가치 함수에 대한 확률 분포를 계산한다. 본 논문에서는 대표적인 강화학습 문제들에 대한 실험을 통해 피드백이 부정확할 때도 학습 성능이 향상된다는 것을 보인다.