Deep reinforcement learning (RL) has achieved remarkable success in solving complex tasks through its integration with deep neural networks (DNNs) as function approximators. However, the reliance on DNNs has introduced a new challenge called primacy bias, whereby these function approximators tend to prioritize early experiences, leading to overfitting. To mitigate this primacy bias, a reset method has been proposed, which performs periodic resets of a portion or the entirety of a deep RL agent while preserving the replay buffer. However, the use of the reset method can result in performance collapses after executing the reset, which can be detrimental from the perspective of safe RL and regret minimization. In this paper, we propose a new reset-based method that leverages deep ensemble learning to address the limitations of the vanilla reset method and enhance sample efficiency. The proposed method is evaluated through various experiments including those in the domain of safe RL. Numerical results show its effectiveness in high sample efficiency and safety considerations.
심층 강화 학습은 심층 신경망을 함수 근사기로 사용하여 복잡한 작업을 해결하는 데 놀라운 성과를 거두었다. 그러나 심층 신경망에 의존함으로써 초기 경험을 우선시하는 프라이머시 바이어스라는 새로운 문제가 발생했다. 이는 이러한 함수 근사기들이 초기 경험을 우선시하여 과적합으로 이어질 수 있다는 것을 의미한다. 이 프라이머시 바이어스를 완화하기 위해 리셋 방법이 제안되었는데, 이 방법은 주기적으로 심층 강화 학습 에이전트의 일부 또는 전체를 재설정하면서 재생 버퍼를 보존한다. 그러나 리셋 방법의 사용은 리셋 후에 성능이 급격하게 하락할 수 있으며, 이는 안전한 강화 학습 및 리그렛 최소화 관점에서 해로울 수 있다. 본 논문에서는 기본 리셋 방법의 한계를 극복하고 샘플 효율성을 향상시키기 위해 심층 앙상블 학습을 활용하는 새로운 리셋 기반의 방법을 제안한다. 이 제안된 방법은 안전한 강화 학습 홤경을 포함한 다양한 실험을 통해 평가된다. 수치적 결과는 높은 샘플 효율성과 안전성 고려 측면에서의 효과를 보여준다.