Replay memory is crucial for deep reinforcement learning since it gives stable convergence of learning. Despite this strength of replay memory, less attention has been paid to good memory management and the memory has been managed naively; the oldest one is removed as the newest one comes in. However, the oldest datum is not always the least important one, therefore there are many of possibilities of improvement by better memory management. In this paper, we propose Prioritized Stochastic Memory Management (PSMM) as a better memory management algorithm for enhanced learning performance; PSMM evaluates the importance of data in replay memory and manages the memory based on this importance. We apply PSMM to advantage actor-critic and show that better performance is achieved with PSMM in comparison to naïve memory management.
강화학습에서 리플레이 메모리는 학습의 안정적인 수렴을 준다는 점에서 중요하다. 그러나 메모리의 이러한 장점에도 불구하고, 메모리에 대한 연구는 주목 받지 못했고, 단순한 방식으로 관리되어 왔다. 여기서 단순한 방식이란, 메모리가 가득 찬 후 새로운 데이터가 들어옴에 따라 가장 오래된 데이터가 삭제되는 방식을 말한다. 그러나 가장 오래된 데이터가 가장 중요도가 낮은 데이터라 단언할 수 없으므로, 더 나은 메모리 관리를 통한 학습 성능 향상의 여지는 많을 것이다. 이 논문에서는 더 나은 메모리 관리 방법으로 우선 확률 메모리 관리를 제안하며, 이 방법은 메모리 내 데이터의 중요도를 계산하고 이를 기반으로 한 메모리 관리다. 또한 다양한 환경에서 어드밴티지 액터-크리틱에 이 메모리 관리를 적용한 실험을 진행하고, 더 우수한 학습 성능을 검증한다.