One of the limitations of reinforcement learning (RL) algorithms is poor task generalizability. On the other hand, humans have the propensity to generalize environmental representations. This study aims to design a human-like generalizable RL algorithm using successor representation (SR), a computational model forming the human predictive map. We propose a novel method to quantify the invariance of the SR and show that it achieves environmental transformation invariance. Second, we implement an SR-Transformer model for task transfer, which best uses the SR's invariance. The proposed model outperforms baseline models on a zero-shot navigation task. We also demonstrate our model's generalizability on an image-based spatial navigation task. Critically, our model can explain various biological phenomena in memory-related brain areas, including the entorhinal grid and hippocampal place cells.
강화학습 알고리즘의 문제점 중 하나는 과제 일반화를 잘하지 못한다는 것이다. 반면에 사람은 환경 표상을 일반화하는 경향을 보인다. 이 연구에서는 사람의 인지 지도를 형성하는 계산 모델인 승계 표상을 이용하여 사람과 같이 일반화하는 강화학습 알고리즘을 설계하는 것을 목표로 한다. 이를 위해 우선 승계 표상의 불변성을 정량화하는 새로운 방법을 제안하고, 승계 표상이 환경 변환에 불변함을 보인다. 두 번째로, 승계 표상의 불변성을 기반으로 과제 전이를 위해 승계 표상-트랜스포머 모델을 구현한다. 제로 샷 경로탐색 과제에서 해당 모델이 비교 모델의 성능을 능가한다. 이미지 기반 경로 탐색 과제에서도 해당 모델의 일반화 성능을 보인다. 이 모델은 기억과 관련된 뇌 영역인 내후각 피질 격자 세포와 해마 공간 세포의 다양한 생물학적 현상을 설명한다.