서지주요정보
Constrained bayesian reinforcement learning via approximate linear programming = 근사 선형계획법을 이용한 제약을 갖는 베이지안 강화학습
서명 / 저자 Constrained bayesian reinforcement learning via approximate linear programming = 근사 선형계획법을 이용한 제약을 갖는 베이지안 강화학습 / Jongmin Lee.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030743

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17023

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In many situations, too much exploratory behaviours can cause severe damage to the reinforcement learning agent and there should be restrictions on such behaviours. These restrictions can naturally be encoded as CMDPs where cost functions and cost constraints represent the risk of behaviours and the degree of risk taking respectively. We propose model-based Bayesian reinforcement learning (BRL) algorithm in CMDP environment, showing risk-sensitive exploration in a principled way. Our algorithm efficiently solve the given constrained BRL problem through finite approximation of the original belief-state CMDP's linear program, and generates a finite state controller in an off-line manner. We provide the corresponding theoretical guarantees and empirical supports that the proposed method outperforms the previous state-of-the-art approach.

현실의 강화 학습 문제에서는 일부 과하게 탐색적인 행동이 에이전트에게 심각한 피해를 입힐 수 있다. 이럴 때에는 단순히 보상 값의 합을 최대화하는 행동 정책을 찾는 문제가 아닌, 안전한 행동 정책들의 집합 중 보상 값의 합을 최대화 하는 행동 정책을 찾는 문제를 고려해야 한다. 이렇게 안전성이 고려된 강화 학습 문제는, 비용 함수로 각 행동의 위험 정도를 표현하고 비용 제약으로 위험 감수의 정도를 나타낸 `비용 제약이 있는 마코프 의사 결정 문제(CMDP)'로 모델링할 수 있다. 본 논문에서는 이렇게 환경이 CMDP로 정의되었을 때의 모델 기반 베이지안 강화 학습 알고리즘을 다룬다. 제안하는 알고리즘은 주어진 비용 제약이 있는 베이지안 강화학습 문제를 유한개의 확률 상태 (belief-state)로 이루어진 CMDP 문제로 근사시킨 후 이를 선형계획법을 이용해 풀게 된다. 제안하는 방법은 기존 최고 수준 방법론의 성능을 상회하며 성능에 대한 이론적인 보장도 함께 갖추고 있다.

서지기타정보

서지기타정보
청구기호 {MCS 17023
형태사항 iii, 30 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이종민
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 27-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서