Despite the complexity and dynamic nature of the environment, animals find a way to maximize the amount of future reward without any supervision or a complete knowledge of the environment. Accumulating evidence shows that this behavior can be explained by reinforcement learning (RL). According to the RL theory, animals learn to predict future reward through trial and error. As the learning process is constrained by the limitations of time and resources, a biological agent should deal with the tradeoff between task performance and resource consumption. This study investigated whether the performance–efficiency tradeoff is reflected in the activity of dopamine neurons, the neural substrate that is deeply involved in the RL process. The main contributions of this study are as follows. First, we found that RL with dynamic resource allocation accounts for the ramping and phasic activity of dopamine neurons. Second, we showed that dopamine activity further explains how animals resolve the bias–variance tradeoff.
동물들은 외부로부터의 지도나 세상에 대한 완벽한 모델이 없어도, 나중에 획득할 보상을 최대화 하는 법을 학습하며 복잡하고 변화무쌍한 환경에 적응한다. 이와 같은 과정은 강화학습으로 설명될 수 있다. 강화학습 이론에 따르면, 동물들은 시행착오를 통해서 미래의 보상을 예측하는 법을 배워간다. 이러한 학습 과정이 시간과 자원의 제한이라는 제약조건 속에서 이루어지기 때문에, 강화학습을 하는 생명체는 성취를 최대화하기 위한 전략과 자원을 절약하기 위한 전략 사이에 균형을 찾을 수 있어야 한다. 이 연구에서는 강화학습과 가장 긴밀하게 관련된 신경 기관인 도파민 신경세포들의 활동이 성취와 자원 절약 사이의 균형을 반영하는지 살펴보았다. 이 연구의 주요 기여는 다음과 같다. 첫째, 강화학습 동안의 역동적인 자원 할당으로 도파민의 갈수록 증가하는 활동과 위상 활동을 설명했다. 둘째, 동물들이 어떻게 편향-분산 균형 문제를 해결하는지를 도파민의 활동을 통해 보여주었다.