Recent neuroscientific studies deploy Deep Reinforcement Learning (DRL) to identify the brain regions where specific brain functions are processed. However, the neural mechanisms underlying the inference of future states and planning remain unclear. State-of-the-art DRL models that encode environmental dynamics are expected to address this question, but there are several limitations: model actions are not aligned with human behavior, and models do not infer future states during evaluation. This study proposes Dreamer-Rollout Complex to troubleshoot these limitations. The model is designed to acquire representations that simulate human memory retrieval, the prediction of future states, and decision-making processes while learning human behavior by imitating behavioral patterns of the dataset. Furthermore, the model infers future states during both training and evaluation by making decisions based on inferred states. It is expected to contribute to the development of neural decoders capable of predicting human thought processes based on recorded neural activations.
근래의 신경과학적 연구는 특정 뇌 기능이 발생하는 영역을 규명하기 위해 심층 강화학습을 사용한다. 그러나, 미래 상태를 추론하고 계획하는 신경 매커니즘은 아직 규명되지 않았다. 환경의 동역학적 정보를 다루는 최신 심층 강화학습 모델은 이 문제를 해결할 수 있을 것으로 기대되지만, 이러한 모델의 행동은 인간의 행동과 일치하지 않고 테스트 중에는 미래 상태를 추론하지 않는다는 한계점이 있다. 본 학위논문에선 이러한 한계점을 보완하기 위해 드리머-롤아웃 복합체를 제안한다. 본 모델은 데이터셋의 행동 패턴을 모방하여 인간의 행동법칙을 학습시킴으로써 인간의 기억 회상, 미래 예측, 그리고 의사 결정 과정을 모사하는 미래와 계획 표상을 얻기 위해 제안되었다. 나아가, 본 모델은 학습과 테스트 모두에서 미래 상태를 추론하고 이를 통해 행동을 결정한다. 이는 신경 활성을 기반으로 인간의 생각을 예측할 수 있는 디코더 개발에 도움을 줄 것으로 기대된다.