In many situations, too much exploratory behaviours can cause severe damage to the reinforcement learning agent and there should be restrictions on such behaviours. These restrictions can naturally be encoded as CMDPs where cost functions and cost constraints represent the risk of behaviours and the degree of risk taking respectively. We propose model-based Bayesian reinforcement learning (BRL) algorithm in CMDP environment, showing risk-sensitive exploration in a principled way. Our algorithm efficiently solve the given constrained BRL problem through finite approximation of the original belief-state CMDP's linear program, and generates a finite state controller in an off-line manner. We provide the corresponding theoretical guarantees and empirical supports that the proposed method outperforms the previous state-of-the-art approach.
현실의 강화 학습 문제에서는 일부 과하게 탐색적인 행동이 에이전트에게 심각한 피해를 입힐 수 있다. 이럴 때에는 단순히 보상 값의 합을 최대화하는 행동 정책을 찾는 문제가 아닌, 안전한 행동 정책들의 집합 중 보상 값의 합을 최대화 하는 행동 정책을 찾는 문제를 고려해야 한다. 이렇게 안전성이 고려된 강화 학습 문제는, 비용 함수로 각 행동의 위험 정도를 표현하고 비용 제약으로 위험 감수의 정도를 나타낸 `비용 제약이 있는 마코프 의사 결정 문제(CMDP)'로 모델링할 수 있다. 본 논문에서는 이렇게 환경이 CMDP로 정의되었을 때의 모델 기반 베이지안 강화 학습 알고리즘을 다룬다. 제안하는 알고리즘은 주어진 비용 제약이 있는 베이지안 강화학습 문제를 유한개의 확률 상태 (belief-state)로 이루어진 CMDP 문제로 근사시킨 후 이를 선형계획법을 이용해 풀게 된다. 제안하는 방법은 기존 최고 수준 방법론의 성능을 상회하며 성능에 대한 이론적인 보장도 함께 갖추고 있다.