Temporal-difference learning is one of the most widely used mode-free reinforcement learning algorithms. Even though its great success, its theoretical analysis is not well understood. We propose a new framework based on backstepping control, to understand the temproal-difference learning algortihms under linear function approximation. Moreover, we propose a new algorithm named Backstepping temporal-diffrence learning.
시간차 학습은 모델프리 강화학습 중 많이 사용되는 알고리즘 중 하나이다. 강화학습이 여러 분야에서 많은 성과를 보였지만 아직 이에 대한 이론적인 분석은 많이 되지 않았다. 이번 연구에서는 백스테핑이라는 제어 기법을 통해 선형 근사를 사용한 시간차 학습을 해석할 수 있는 프레임워크를 제시하고자 한다. 또한 이를 통해 백스테핑 시간차 학습이라는 새로운 알고리즘을 제시한다.