서지주요정보
Inverse reinforcement learning in partially observable environments = 부분관찰환경에서의 역강화학습
서명 / 저자 Inverse reinforcement learning in partially observable environments = 부분관찰환경에서의 역강화학습 / Jae-Deug Choi.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020688

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 09043

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Inverse reinforcement learning (IRL) is the problem of recovering the underlying reward function from the behavior of an expert. Most of the existing algorithms for IRL assume that the expert`s environment is modeled as a Markov decision process (MDP), although they should be able to handle partially observable settings in order to widen the applicability to more realistic scenarios. In this paper, we present an extension of the classical IRL algorithm by Ng and Russell to partially observable environments. We discuss technical issues and challenges, and present the experimental results on some of the benchmark partially observable domains.

역강화학습이란 주어진 환경의 보상함수를 모델링하기 위하여 그 환경의 에이전트가 수행한 행동 데이터, 센서 입력 데이터, 및 환경 모델로부터 에이전트가 최적화하고 있는 보상함수를 계산하는 것이다. 현재까지 연구된 알고리즘들은 대부분 환경이 마르코프 의사 결정 모델에 의해 표현 가능하다는 가정을 한다. 그러나 많은 문제에서 에이전트는 환경의 일부분만을 불확실하게 관찰 가능하기 때문에 역강화학습의 적용 범위를 확장하기 위해서는 부분 관찰 가능한 환경에서의 알고리즘이 필요하다. 그러므로 본 연구에서는 이전에 제시된 마르코프 의사 결정 모델에 기반한 역강화학습 알고리즘을 확장하여 부분관찰 가능한 환경에서의 역강화학습 알고리즘을 개발하는 것을 목표로 한다. 첫번째, 전문가의 정책이 유한 상태 기계의 형태로 명확하게 주어진 경우, 전문가 정책의 최적성을 보장할 수 있는 보상함수의 범위를 한정짓는 조건들과 그 조건에 기반한 최적화문제를 제시한다. 두번째, 전문가의 정책이 명확한 형태로 주어지는 것이 아니라 전문가의 정책을 수행하였을 때 취득 가능한 일련의 행동과 관찰의 데이터가 주어진, 보다 실제적인 상황에서는 추측한 전문가 정책의 가치와 알고리즘에 의해 계산된 정책들의 가치의 차이를 최대화하는 보상함수를 반복적으로 계산하는 알고리즘을 제시한다. 마지막으로 부분관찰 가능한 환경의 문제에 적용한 실험 결과를 통해 제시된 알고리즘으로부터 계산된 보상함수가 대부분의 경우 실제 보상함수에 근사함을 보인다.

서지기타정보

서지기타정보
청구기호 {MCS 09043
형태사항 v, 36 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 최재득
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 References : p. 35-36
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서