서지주요정보
Algorithms for model-based bayesian reinforcement learning = 모델 기반 베이지안 강화학습 알고리즘
서명 / 저자 Algorithms for model-based bayesian reinforcement learning = 모델 기반 베이지안 강화학습 알고리즘 / Kanghoon Lee.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033280

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 19002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement Learning (RL) is the problem of an agent with the goal of maximizing long-term rewards while interacting with an unknown environment. A fundamental problem in RL is exploration-exploitation tradeoff, which refers to the agent having to balance between exploring to gather more information from the environment and exploiting the current knowledge to maximize cumulative reward. The main focus of this thesis is a model-based Bayesian reinforcement learning (BRL), which provides a principled framework for an optimal exploration-exploitation tradeoff from the Bayesian perspective. Formally, when the environment is assumed to be a Markov decision process (MDP), the Bayesian model under the uncer- tainty in environment parameters is defined as a Bayes-adaptive Markov decision process (BAMDP), which can be seen as a special case of a partially observable Markov decision process (POMDP). Although the BAMDP model provides a succinct formulation of the model-based BRL, it still remains as a computational challenge to obtain the Bayes-optimal policy. Therefore, many model-based BRL algorithms relied on two approaches: approximated model constructions or real-time search methods. In this thesis, we develop novel algorithms for finding the Bayes-optimal policy in both approaches. First, we propose an optimistic MDP construction algorithm, Bayesian Optimistic Kullback-Leibler Exploration (BOKLE), and provide a PAC-BAMDP analysis. We then propose a real-time heuristic search algorithm, Anytime Error Minimization Search for the model-based BRL (AEMS-BRL), which is a natural adaptation of a well-known online POMDP planning algorithm to the model-based BRL setting. In addition, we suggest tighter value func- tion bounds, and integrate them into AEMS-BRL for improving the efficiency of search. As a consequence, we experimentally show that these significantly improve the learning performance in standard BRL domains.

강화학습은 의사결정의 주체인 에이전트가 알려지지 않은 주변 환경과의 상호작용을 통해 장기적 보상을 최 대화하는 것을 목표로 한다. 강화학습에서는 탐색과 활용의 균형에 대한 근본적인 문제가 존재한다. 탐색과 활용의 두 가지 행동은 상호보완적으로서 활용 없는 탐색만으로는 장기적 보상을 최대화할 수 없고 효과적인 탐색을 통해 얻어진 정보는 더 좋은 활용을 가능하게 한다. 본 학위논문에서는 베이지안 관점에서 최적의 탐색-활용의 균형을 제공해주는 모델 기반 베이지안 강화 학습을 연구한다. 이를 위해 베이지 적응 마코프 의사결정과정을 이용하여 베이지안 최적 균형을 수학적으로 정의하고,베이지안최적해를구하기위한근사환경모델생성및실시간트리탐색의두가지접근법으로부터 새로운 알고리즘을 제안한다. 첫번째로 정보이론적 경계를 가지는 낙관적 근사 환경 모델을 생성하여, 베이지 적응 마코프 의사결정 과정의 확률적 근사해 학습이 보장되는 알고리즘을 제안한다. 또한 베이지안 강화학습을 위한 지속적인 에러 최소화트리탐색을제안하고,낙관적및비관적모델상태추정에의존한가치함수경계값을계산함으로써탐 색의 효율을 향상시킨다. 제안된 알고리즘들은 베이지안 강화학습 표준 벤치마크 문제에서 실험적으로 많은 성능 향상을 보여준다.

서지기타정보

서지기타정보
청구기호 {DCS 19002
형태사항 iv, 88 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이강훈
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 81-85
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서