서지주요정보
Real-time heuristic search with reward shaping for bayesian reinforcement learning = 보상함수 조형을 적용한 베이지안 강화학습 휴리스틱 서치 알고리즘
서명 / 저자 Real-time heuristic search with reward shaping for bayesian reinforcement learning = 보상함수 조형을 적용한 베이지안 강화학습 휴리스틱 서치 알고리즘 / Hyeon-Eun Kim.
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027188

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 14042

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Bayesian reinforcement learning (BRL) provides a formal framework to optimally trading off exploration and exploitation in reinforcement learning. Unfortunately, it is generally intractable to find the Bayes-optimal behavior since the uncertainty in the model of the environment has to be taken into account. In this paper, we present a heuristic search approach to the model-based BRL. In addition, we present potential-based reward shaping for model-based BRL that makes the search more effective. The potential functions we propose are domain-independent in the sense that they do not require any knowledge about the actual environment model. We show that the proposed potential functions generally improve the quality of search, enabling our heuristic search algorithm to outperform state-of-the-art BRL algorithms in standard benchmark domains.

강화학습 (Reinforcement Learning)은 의사결정 모델인 에이전트와 환경과의 상호작용으로, 에이전트는 환경에게 행동을 환경은 행동에 대한 상태변화와 보상을 에이전트에게 주고 받으며 이루어진다. 강화학습에서 에이전트의 목표는 상호작용으로 얻게 되는 보상들의 합을 최대화 시키는 것으로, 이를 당성하기 위해서는 현재까지 얻은 정보를 바탕으로한 최선의 행동과 더 많은 정보를 얻기 위한 행동 사이의 균형을 유지 해야하는 문제를 해결해야한다. 본 연구는 행동의 균형 문제 다룰 수 있는 베이지안 강화학습에 관한 연구로서 베이지안 측면에서 최적의 행동을 이끌어 낼 수 있는 실시간 휴리스틱 서치 알고리즘을 제안했다. 그리고 더 나아가 강화학습분야에서 자주 제기되는 보상의 희귀현상을 해결하고자 기존의 보상함수 조형기법을 베이지안 강화학습 알고리즘에 적용함으로서 초기 학습과정에서 큰 성능향상을 이끌어 냈다.

서지기타정보

서지기타정보
청구기호 {MCS 14042
형태사항 iv, 23p : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김현은
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 19-20
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서