서지주요정보
(A) study on model-based reinforcement learning models for analyzing human inference-based planning = 인간의 추론 기반 계획 분석을 위한 모델 기반 강화학습 모델 제안에 관한 연구
서명 / 저자 (A) study on model-based reinforcement learning models for analyzing human inference-based planning = 인간의 추론 기반 계획 분석을 위한 모델 기반 강화학습 모델 제안에 관한 연구 / DoHyoung Lee.
발행사항 [대전 : 한국과학기술원, 2025].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8044005

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MBCS 25007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent neuroscientific studies deploy Deep Reinforcement Learning (DRL) to identify the brain regions where specific brain functions are processed. However, the neural mechanisms underlying the inference of future states and planning remain unclear. State-of-the-art DRL models that encode environmental dynamics are expected to address this question, but there are several limitations: model actions are not aligned with human behavior, and models do not infer future states during evaluation. This study proposes Dreamer-Rollout Complex to troubleshoot these limitations. The model is designed to acquire representations that simulate human memory retrieval, the prediction of future states, and decision-making processes while learning human behavior by imitating behavioral patterns of the dataset. Furthermore, the model infers future states during both training and evaluation by making decisions based on inferred states. It is expected to contribute to the development of neural decoders capable of predicting human thought processes based on recorded neural activations.

근래의 신경과학적 연구는 특정 뇌 기능이 발생하는 영역을 규명하기 위해 심층 강화학습을 사용한다. 그러나, 미래 상태를 추론하고 계획하는 신경 매커니즘은 아직 규명되지 않았다. 환경의 동역학적 정보를 다루는 최신 심층 강화학습 모델은 이 문제를 해결할 수 있을 것으로 기대되지만, 이러한 모델의 행동은 인간의 행동과 일치하지 않고 테스트 중에는 미래 상태를 추론하지 않는다는 한계점이 있다. 본 학위논문에선 이러한 한계점을 보완하기 위해 드리머-롤아웃 복합체를 제안한다. 본 모델은 데이터셋의 행동 패턴을 모방하여 인간의 행동법칙을 학습시킴으로써 인간의 기억 회상, 미래 예측, 그리고 의사 결정 과정을 모사하는 미래와 계획 표상을 얻기 위해 제안되었다. 나아가, 본 모델은 학습과 테스트 모두에서 미래 상태를 추론하고 이를 통해 행동을 결정한다. 이는 신경 활성을 기반으로 인간의 생각을 예측할 수 있는 디코더 개발에 도움을 줄 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {MBCS 25007
형태사항 ii, 31 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기: 이도형
지도교수의 영문표기: Lee, Sang Wan
지도교수의 한글표기: 이상완
학위논문 학위논문(석사) - 한국과학기술원 : 뇌인지과학과,
서지주기 References: p. 28-30
주제 Reinforcement Learning
Inference and Planning
Model-based Function MRI Analysis
강화학습
추론 및 계획
모델 기반 기능자기공명영상 분석
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서

Schematic diagram ofreinforcement Learning [7].

The World model structure [24].

Model structure and training procedure ofDreamer v3. (a-b) World model learning, (c-d) actor-critic learning [16].

Dreamer-Rollout Complex.

PVP TD3 algorithm structure ofDreamer v3 Onlythe red partis the structure ofPVP TD3 and the part that is computed. (a) PVP critic training. The PVP critic training allows the PVP critic network to learn the action value ofhuman behavior and to undervalue actor behavior when human behavior differs from action behavior. (b) PVPactor training. The PVP actor loss is defined by the negative mean value

Pseudocode ofPVP TD3 algorithm.

Rollout Encoder training.

Pseudocode ofRollout Encoder training algorithm.

Design matrix sample. Generated by the subject 1, Session 1, Pong environment behavioral dataset.

Actor network performance plotduring 100,000 epoch simulated dataset training

Rollout Encoder performance plotduring200,000 epochs training. The vertical dotted lines are where actor training stops and Rollout Encoder training starts.

Cosine similarity ofnon-ilnitation and imitation actor networks to the simulated dataset. Horizontal dotted lines are the baseline actions consisting ofone random behavior and behaviors that perform only one action. Two-tailed t-tested. *: p<0.05, **: p<0.01, ***: p<0.001.

PVP actor loss plotfor 100,000 epochs ofactor training.

PVP critic loss plot for 100,000 epochs ofactor training.

Actor network performance plotduring 100,000 epoch human dataset training

Cosine similarity ofnon-iimitation and imitation actor networks to the human dataset. Horizontal dotted lines are the baseline actions consisting ofone random behavior and behaviors that perform only one action. Two-tailed t-tested. *: p<0.05, **: p<0.01, ***: p<0.001

Action distribution ofthe simulated dataset and the human dataset.