Metacognition is seen as the human’s capability to introspect their thought process and report their level of uncertainty/confidence in the course of learning. The metacognitive ability can be extremely useful in guiding behaviour during learning, in deciding whether to explore a new alternative or stick with the current one. In the past few years, the neuroscientific community has made some progress in understanding the neural basis of uncertainty/confidence representation. However, little is known about how uncertainty/confidence arises at the computational level during reinforcement learning. Here we propose to combine machine learning with behavioural data to characterise the exact computational steps that underlie the psychological construction of uncertainty during learning in complex environments, also aim to design a formal model for human’s state space learning process based on metacognition. The central aim of this work is to provide a mechanistic understanding of how uncertainty is constructed at the algorithmic level by the human brain and how it is used to drive learning.
메타 인지 능력(metacognitive ability)은 인간의 지식과 인지 영역에 대한 통제와 조절을 일컫는 것으로써, 학습 과정 중 자신의 학습 정도에 대한 불확실성을 평가하는 인간의 고유 능력을 포함한다. 메타 인지 능력은 인간의 학습 과정에서 학습 성취를 위한 행동을 계획하고 실행하는 것에 중요한 역할을 한다. 예를 들어 어떠한 문제를 해결하기 위해서 이미 알고 있는 방법을 고수할 것인지(exploitation), 가능한 다른 방법을 탐색할 것인지(exploration)를 선택해야 하는 상황에 이러한 메타 인지 능력을 사용하게 된다. 지난 몇 년간 신경과학계에서는 이러한 불확실성의 신경학적 근거를 이해하는 데 있어 진전을 이루었다. 단, 강화 학습 중에 알고리즘 수준에서 불확실성이 어떻게 발생하는지에 대해서는 거의 알려지지 않았다. 본 논문에서는 인간의 메타 인지 능력과 기계 학습을 결합하여 복잡한 환경에서의 학습 중 불확실성 발생의 계산적 이론을 정립하고, 메타 인지 기반 상태 공간 학습과정을 형식화한 알고리즘을 제안한다.