Developing reinforcement learning algorithms capable of rapid adaptation and generalization across diverse tasks, similar to humans and animals, still remains a key challenge. We examined a new approach that could enable this flexibility for multi-goal scenarios, which pose particular difficulties due to policy dependency of the successor representation (SR) model. In this study, the hierarchical successor representation (HSR) model addresses multi-goal tasks by using option-level predictive maps based on subgoal configuration. In particular, it calculates option-level distances and values from a single unbiased SR map to derive optimal option-level trajectory and construct the corresponding option-level SR map. The model facilitates rapid learning of optimal paths in multi-goal tasks by leveraging the option-level representations for two-level navigation. Our method demonstrates significantly higher total rewards and fewer steps than previous approaches, selecting subgoals on the way to the target state while avoiding obstacles. This study highlights the potential of combining hierarchical learning with scalable SR maps to improve task generalization in multi-goal environments, contributing to the development of human-like reinforcement learning mechanisms.
인간과 동물처럼 다양한 과제에서 빠르고 유연하게 적응하며 일반화할 수 있는 강화학습 알고리즘의 개발은 여전히 중요한 도전 과제로 남아 있다. 본 연구에서는 이러한 유연성을 멀티골 시나리오에 적용할 수 있는 새로운 접근법을 제시한다. 멀티골 과제는 특히 승계 표상 모델의 정책 의존성으로 인해 효율적인 학습이 어려운 과제 중 하나이다. 본 연구의 위계적 승계 표상 모델은 서브골 구성을 기반으로 옵션 수준의 예측 지도를 구축하여 멀티골 과제를 해결한다. 특히, 단일 비편향 승계 표상으로부터 옵션 수준의 거리와 가치를 계산하여 최적의 옵션 경로를 도출하고, 이에 기반한 옵션 수준의 승계 표상을 형성한다. 이 모델은 옵션 수준 표상을 활용한 이중 네비게이션을 통해 멀티골 과제에서 최적 경로를 빠르게 학습하도록 돕는다. 본 연구에서 제안한 방법은 다양한 멀티골 환경에서 기존 접근법 대비 유의미하게 높은 총 보상과 더 적은 스텝 수를 보여주었으며, 목표 상태로 가는 경로에서 장애물을 피하면서 서브골을 효과적으로 선택했다. 이러한 결과는 위계적 학습과 확장 가능한 SR 지도를 결합하여 멀티골 환경에서의 과제 일반화 능력을 개선할 수 있는 가능성을 보여주며, 인간과 유사한 강화학습 메커니즘 구현에 기여할 수 있음을 시사한다.