서지주요정보
Model ensemble-based intrinsic reward for sparse reward reinforcement learning = 드문 보상이 주어진 강화학습 환경에서 여러 개의 확률 모델을 사용한 내적 보상 설계
서명 / 저자 Model ensemble-based intrinsic reward for sparse reward reinforcement learning = 드문 보상이 주어진 강화학습 환경에서 여러 개의 확률 모델을 사용한 내적 보상 설계 / Giseung Park.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032952

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 18121

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this paper, a new intrinsic reward generation method is proposed based on an ensemble of dynamics models for sparse-reward reinforcement learning. In the proposed method, the mixture of multiple dynamics models is used to approximate the true unknown transition probability and the intrinsic reward is designed as the minimum of the surprise seen from each dynamics model to the mixture of the dynamics models. Then, a working algorithm is constructed by combining the proposed intrinsic reward generation method with PPO. Numerical results show that the proposed model ensemble-based intrinsic reward generation method outperforms the previous intrinsic reward generation method based on a single dynamics model.

본 연구에서는 드문 보상이 주어진 강화학습 환경에서 여러 개의 확률 모델을 사용하여 내적 보상을 고안 하는 새로운 방법을 제안한다. 먼저 여러 개의 확률 모델의 합을 이용해 환경의 실제 확률 분포를 근사한 뒤, 이 근사 분포와 각각의 확률 모델 간 놀라움의 최솟값을 내적 보상으로 정한다. 이 내적 보상을 PPO 알고리즘과 결합하여 드문 보상이 주어진 환경에서도 에이전트가 학습을 할 수 있도록 한다. 확률 모델 한 개만을 사용한 기존의 방법들과 비교하였을 때 본 연구에서 제시한 알고리즘이 드문 보상이 주어진 환경에서 더 우수한 성능을 보이는지 평가한다.

서지기타정보

서지기타정보
청구기호 {MEE 18121
형태사항 iii, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박기승
지도교수의 영문표기 : Young Chul Sung
지도교수의 한글표기 : 성영철
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p.16-18
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서