Reinforcement Learning (RL) is the problem of an agent with the goal of maximizing long-term rewards while interacting with an unknown environment. A fundamental problem in RL is exploration-exploitation tradeoff, which refers to the agent having to balance between exploring to gather more information from the environment and exploiting the current knowledge to maximize cumulative reward.
The main focus of this thesis is a model-based Bayesian reinforcement learning (BRL), which provides a principled framework for an optimal exploration-exploitation tradeoff from the Bayesian perspective. Formally, when the environment is assumed to be a Markov decision process (MDP), the Bayesian model under the uncer- tainty in environment parameters is defined as a Bayes-adaptive Markov decision process (BAMDP), which can be seen as a special case of a partially observable Markov decision process (POMDP). Although the BAMDP model provides a succinct formulation of the model-based BRL, it still remains as a computational challenge to obtain the Bayes-optimal policy. Therefore, many model-based BRL algorithms relied on two approaches: approximated model constructions or real-time search methods.
In this thesis, we develop novel algorithms for finding the Bayes-optimal policy in both approaches. First, we propose an optimistic MDP construction algorithm, Bayesian Optimistic Kullback-Leibler Exploration (BOKLE), and provide a PAC-BAMDP analysis. We then propose a real-time heuristic search algorithm, Anytime Error Minimization Search for the model-based BRL (AEMS-BRL), which is a natural adaptation of a well-known online POMDP planning algorithm to the model-based BRL setting. In addition, we suggest tighter value func- tion bounds, and integrate them into AEMS-BRL for improving the efficiency of search. As a consequence, we experimentally show that these significantly improve the learning performance in standard BRL domains.
강화학습은 의사결정의 주체인 에이전트가 알려지지 않은 주변 환경과의 상호작용을 통해 장기적 보상을 최 대화하는 것을 목표로 한다. 강화학습에서는 탐색과 활용의 균형에 대한 근본적인 문제가 존재한다. 탐색과 활용의 두 가지 행동은 상호보완적으로서 활용 없는 탐색만으로는 장기적 보상을 최대화할 수 없고 효과적인 탐색을 통해 얻어진 정보는 더 좋은 활용을 가능하게 한다.
본 학위논문에서는 베이지안 관점에서 최적의 탐색-활용의 균형을 제공해주는 모델 기반 베이지안 강화 학습을 연구한다. 이를 위해 베이지 적응 마코프 의사결정과정을 이용하여 베이지안 최적 균형을 수학적으로 정의하고,베이지안최적해를구하기위한근사환경모델생성및실시간트리탐색의두가지접근법으로부터 새로운 알고리즘을 제안한다.
첫번째로 정보이론적 경계를 가지는 낙관적 근사 환경 모델을 생성하여, 베이지 적응 마코프 의사결정 과정의 확률적 근사해 학습이 보장되는 알고리즘을 제안한다. 또한 베이지안 강화학습을 위한 지속적인 에러 최소화트리탐색을제안하고,낙관적및비관적모델상태추정에의존한가치함수경계값을계산함으로써탐 색의 효율을 향상시킨다. 제안된 알고리즘들은 베이지안 강화학습 표준 벤치마크 문제에서 실험적으로 많은 성능 향상을 보여준다.