Recent progress in offline reinforcement learning (RL) has made it possible to train strong RL agents from offline datasets. However, depending on the quality of the trained agents and the application being considered, it is often desirable to fine-tune such offline RL agents via further online interaction. Here, we make an observation that state-action distribution shift may lead to severe bootstrap error during fine-tuning. To address this issue, we first propose a balanced replay scheme that prioritizes samples encountered online while also encouraging the use of near-on-policy samples from the offline dataset. Furthermore, we leverage multiple pessimistic offline Q-functions, thereby preventing overoptimism concerning unfamiliar actions at novel states during the initial training phase. We show that the proposed method stabilizes Q-learning during fine-tuning and improves the final performance and sample-efficiency of fine-tuned agents on various continuous control tasks from the D4RL benchmark suite.
최근 제안된 오프라인 강화학습 알고리즘들은 미리 모아둔 데이터만을 가지고 강력한 강화학습 에이전트를 학습할 수 있음을 보여주고 있다. 하지만, 미리 모아둔 데이터의 질, 혹은 적용 사례에 따라 오프라인으로 학습된 에이전트를 온라인으로 미세조정 해야 하는 경우가 생길 수 있다. 본 학위논문에선 이러한 경우 오프라인 데이터의 분포와 에이전트가 온라인으로 수집하는 데이터의 분포 사이의 간극이 심각한 부트스트랩 오류를 야기할 수 있음을 보인다. 이 문제를 해결하기 위해 본 논문에서는 온라인 데이터 및 온라인 데이터에 가까운 오프라인 데이터를 우선적으로 사용하게끔 하는 균형된 경험 리플레이 방법을 제안한다. 또한, 보수적으로 배워진 Q 함수들의 앙상블을 이용하여 에이전트가 온라인에서 맞닥뜨리는 상태/행동들에서 좀 더 보수적으로 행동하게끔 하고, 이를 통해 부트스트랩 오류를 줄일 수 있음을 보였다. 최근 고안된 D4RL 벤치마크 태스크를 통해 이 논문에서 제안한 방법이 우수한 성능을 보임을 실험적으로 확인하였다.