Artificial neural networks currently provide the best performance in the field of reinforcement learning. Here, a new deep reinforcement learning framework, called the deep recurrent external memory Q-Network (DReEMQN) is proposed. It consists of a deep neural network and an external memory matrix. The neural network acts as a function approximator for the deep Q-learning algorithm. The external memory is manipulated by a recurrent layer from with in the network, creating a true integrative framework for both learning and remembering what was learnt. The external memory is able to remember longer sequences of the observed states and actions taken by the reinforcement learning agent, and thus this framework is aimed at functioning well in real world environments where the environment state description is limited and long term dependencies on previous actions and states are needed to be remembered. DReEMQN is then tested on partially observable grid world environments of multiple sizes and is compared with a Deep Recurrent Q-Network, which does not have an external memory. The results obtained from the said experiments confirmed that the external memory integration in a deep reinforcement learning algorithm aids the algorithm to perform better in environments where observations are limited and an internal representation of the unobserved environment states and the agent’s past actions is needed.
인공 신경 네트워크는 현재 강화 학습 분야에서 최고의 성과를 제공하고 있다. 이 논문에서 심층 재발 외부 메모리 Q-네트워크(DReEMQN) 라는 새로운 심층 강화 학습 프레임워크를 제안한다. 이 새로운 구조는 깊은 신경 네트워크와 외부 기억 매트릭스로 구성되어 있다. 신경 네트워크는 깊은 Q 러닝 알고리즘을 위한 접속자 함수 역할을 한다. 또한 외부 기억 매트릭스는 네트워크를 통해 반복되는 계층에 의해 조작되며, 이는 배우고자 하는 바를 학습하고 기억하기 위한 통합 체계를 구성한다. 외부 기억 매트릭스를 통하여 강화 학습 에이전트는 관찰한 상태들과 행동들의 더 긴 시퀀스를 기억할 수 있게 된다. 이 프레임워크는 환경의 상태의 묘사가 이전의 상태들과 행동들에 대하여 장기간의 의존성을 갖는 실제 환경을 잘 함수화하는 것을 목표로 한다. DReEMQN의 성능 분석을 위하여 다양한 크기의 부분적으로 관측 가능한 격자 세계 환경에서 실험하고 이 결과들을 외부 메모리가 없는 심층 재발 Q-네트워크를 사용한 결과들과 비교하였다. 이 실험들로부터 얻어진 결과들을 통하여 심층 강화 학습 알고리즘에서 외부 메모리 통합을 사용할 시 관측이 제한되어 관측되지 않은 환경의 상태들과 행동들의 내부 묘사가 필요한 환경에서 더 나은 수행을 하는데 도움을 준다는 것을 확인했다.