서지주요정보
Improving upper confidence reinforcement learning with bootstrapping = 강화학습에서의 효율적 탐색을 위한 부트스트랩 기법의 활용
서명 / 저자 Improving upper confidence reinforcement learning with bootstrapping = 강화학습에서의 효율적 탐색을 위한 부트스트랩 기법의 활용 / Sanghwa Kim.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039163

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MIE 22005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Upper confidence reinforcement learning (UCRL) algorithms are shown to be very effective to solve online reinforcement learning problems in which the environment is given by a Markov decision process (MDP) with unknown reward distributions and unknown state transition probabilities. Analogously to upper confidence bound (UCB) algorithm, UCRL algorithm constructs a set of plausible MDPs that contains the true MDP with a high probability, and finds an exploration policy based on optimistic interpretation of this confidence set. To achieve optimal balance between exploration and exploitation, it is crucial to construct the set of plausible MDPs as tight as possible. We introduce bootstrap techniques in construction of the set of plausible MDPs, in addition to the concentration inequalities such as Hoeffding's inequality and empirical Bernstein inequality used in the previous UCRL algorithms. By doing so, we can further utilize the whole distribution of given data thereby making the set of plausible MDPs tighter while preserving theoretical guarantees on the performance of worst case. We demonstrate through experiments that our proposed bootstrapping UCRL algorithms improve the existing UCRL algorithms by 5%-30% in terms of cumulative regret, and also provide theoretical analysis showing that this improvement can be carried out without degrading their performance guarantees.

본 연구에서는 부트스트랩을 활용하여 개선된 신뢰 상한 강화학습 알고리즘을 제안한다. 신뢰 상한 강화학습 알고리즘은 온라인 강화학습 문제를 푸는 효과적인 알고리즘이다. 일반적으로 온라인 학습 문제에서의 환경은 마르코프 결정 과정으로 표현되며 그 환경의 보상 분포와 상태 전이 확률은 알려지지 않은 채로 문제를 푼다. 신뢰 상한 강화학습 알고리즘은 마르코프 결정 과정의 신뢰 집합을 구성하고 그 안에서 낙관적인 시선을 통해 탐색을 위한 정책을 결정한다. 이 정책이 더 효율적인 탐색을 해내어 알고리즘의 성능을 높이기 위해서는 더 정확하고 딱 맞는 신뢰 집합을 구성해야 한다. 본 연구에서는 부트스트랩 기법을 통해서 기존 알고리즘의 신뢰 집합을 더 정확하고 딱 맞도록 개선하였다. 그리고 새로운 알고리즘이 기존의 알고리즘의 최악의 경우의 성능에 대한 이론적 보장을 그대로 유지한다는 것을 증명하였다. 마지막으로 실험을 통해서 새로운 알고리즘이 기존의 알고리즘의 누적 후회의 값을 5%-30% 줄인다는 것을 보였다.

서지기타정보

서지기타정보
청구기호 {MIE 22005
형태사항 iii, 30 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김상화
지도교수의 영문표기 : Seungki Min
지도교수의 한글표기 : 민승기
공동지도교수의 영문표기 : Kyoung-Kuk Kim
공동지도교수의 한글표기 : 김경국
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서