서지주요정보
두 회귀신경망을 사용한 예측 메타-강화학습 알고리즘 디자인 = Predictive meta-reinforcement learning design using dual recurrent neural networks
서명 / 저자 두 회귀신경망을 사용한 예측 메타-강화학습 알고리즘 디자인 = Predictive meta-reinforcement learning design using dual recurrent neural networks / 김준열.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035250

소장위치/청구기호

학술문화관(문화관) 보존서고

MBIS 19022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Human has two distinct reinforcement learning systems: model-free and model-based. Model-based reinforcement learning, which shows goal-directed behavior, can handle environment or opponent's strategy change. On the other hand, model-free reinforcement learning, which shows habitual behavior, requires less cognitive load and behaves better in extremely dynamic or noisy environment. Previous reinforcement learning algorithms choose only one strategy for decision making. However, recent studies revealed that human has arbitration mechanism to choose model-free or model-based strategy. This paper proposes the algorithm which has arbitration mechanism of reinforcement learning by using RNN(Recurrent Neural Network). Moreover, I verified this arbitration model works by using behavior data.

사람의 강화학습은 크게 습관적 행동 패턴을 보이는 모델-자유(Model-free) 강화학습과 목적 지향적 행동 패턴을 보이는 모델-기반(Model-based) 강화학습으로 나뉜다. 모델-기반 강화학습은 환경 혹은 상대방 전략의 변화에 대처할 수 있다. 반면 모델-자유 강화학습은 요구하는 계산량이 비교적 적으며, 극단적으로 동적인 환경이나 노이즈가 큰 환경에서 더 나은 모습을 보인다. 기존 강화학습 알고리즘은 모델-자유 혹은 모델-기반 강화학습 중 한 가지만 사용하여 의사결정에 반영한다. 그러나 사람은 상황에 따라 모델-자유 강화학습과 모델-기반 강화학습 중 적절한 전략을 선택하는 메커니즘을 사용하는 것으로 알려져 있다. 본 연구에서는 회귀신경망을 사용해 사람처럼 상황에 알맞은 전략을 선택해 정책과 가치값을 계산하는 알고리즘을 제시하고, 이를 행동 데이터를 사용하여 검증한다.

서지기타정보

서지기타정보
청구기호 {MBIS 19022
형태사항 iii, 28 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Jun-Yeol Kim
지도교수의 한글표기 : 이상완
지도교수의 영문표기 : Sangwan Lee
학위논문 학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 참고문헌 : p. 25-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서