서지주요정보
Bayesian reinforcement learning with behavioral feedback = 행동 피드백을 통한 베이지안 강화학습
서명 / 저자 Bayesian reinforcement learning with behavioral feedback = 행동 피드백을 통한 베이지안 강화학습 / Teakgyu Hong.
발행사항 [대전 : 한국과학기술원, 2016].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030136

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 16064

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In the standard reinforcement learning setting, the agent learns optimal policy solely from state transitions and rewards from the environment. We consider an extended setting where a trainer additionally provides feedback on the actions executed by the agent. This requires appropriately incorporating the feedback, even when the feedback is not necessarily accurate. In this paper, we present a Bayesian approach to this extended reinforcement learning setting. Specifically, we extend Kalman Temporal Difference learning to compute the posterior distribution over Q-values given the state transitions and rewards from the environment as well as the feedback from the trainer. Through experiments on standard reinforcement learning tasks, we show that learning performance can be significantly improved even with inaccurate feedback.

일반적인 강화학습 상황에서 에이전트는 수행한 행동에 따른 환경 상태의 변화와 보상만으로 최적의 행동정책을 학습한다. 하지만 본 연구에서는 환경 상태의 변화와 보상뿐만 아니라 에이전트가 수행한 행동에 대해서 전문가로부터 피드백을 받는 추가적인 정보가 있는 상황을 고려한다. 이러한 상황에서는 학습모델에 전문가 피드백을 적절하게 통합시켜야 하는데, 피드백이 정확하지 않을 수도 있는 상황 또한 고려하여야 한다. 본 논문에서는 이러한 확장된 강화학습 상황에 대한 베이지안 접근법을 제시한다. 특히 환경 상태의 변화와 보상뿐만 아니라 전문가 피드백 또한 주어졌을 때, 칼만 시간차 학습을 확장한 모델을 이용하여 행동 가치 함수에 대한 확률 분포를 계산한다. 본 논문에서는 대표적인 강화학습 문제들에 대한 실험을 통해 피드백이 부정확할 때도 학습 성능이 향상된다는 것을 보인다.

서지기타정보

서지기타정보
청구기호 {MCS 16064
형태사항 iii, 22 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍택규
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 19-20
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서