We propose Episodic Backward Update – a new algorithm to boost the performance of a deep reinforcement learning agent by a fast reward propagation. In contrast to the conventional use of the experience replay with uniform random sampling, our agent samples a whole episode and successively propagates the value of a state to its previous states. Our computationally efficient recursive algorithm allows sparse and delayed rewards to propagate efficiently through all transitions of a sampled episode. We evaluate our algorithm on 2D MNIST maze environment and 49 games of the Atari 2600 environment, and show that
our method improves sample efficiency with a competitive amount of computational cost.
본 논문에서는 신속한 보상값 전달을 통해 효율적인 심층 강화학습을 진행하는 에피소드 후향 업데이트 알고리즘을 제안한다. 균등분포를 사용해 리플레이 메모리에서 스텝 단위로 샘플을 취하는 통상적인 강화학습 방법과 다르게 본 논문에서는 에피소드단위로 샘플을 취한 후 상태값을 시간 역순으로 전달한다. 논문에서 제안한 알고리즘은 샘플의 수가 적고 보상값이 희박한 환경에서도 신속한 보상값 전파가 가능하다. 제안한 알고리즘을 2D MNIST maze 환경과 Atari 2600 환경에서 비교하여 기존 알고리즘에 비해 현저한 성능 개선이 이루어짐을 보였다.