Offline reinforcement learning (RL) seeks to learn policies from previously collected datasets alone. This requires offline RL methods to address the distribution shift between the data collection policy underlying the dataset and the learned policy. Many offline RL methods often regularize the policy or value function during training to discourage the choice of out-of-distribution actions. Despite these efforts, the learned policies often suffer from state distribution shift during deployment. Since there is no direct learning signal for out-of-distribution states, this shift can lead to generalization problems. In this paper, we propose a post-hoc policy adjustment method
for deployment phase to enhance the policy. Specifically, we focus on offline actor-critic methods employing conservatism, such as conservative Q-learning (CQL). The main concept originates from two key observations: first, for out-of-distribution states, the actor might not be optimized sufficiently regarding the critic, and second, the conservatively trained critic can aid in locating a nearby in-distribution state. We test our method using the D4RL benchmark and show that it can notably improve the performance of current state-of-the-art offline actor-critic methods.
오프라인 강화학습은 사전에 수집한 데이터셋만을 활용하여 효과적인 정책을 학습하는 것을 목표로 한다. 이를 위해서는 학습된 정책과, 데이터셋을 수집할 때 사용된 정책 사이에 존재하는 분포 변화 (distribution shift) 에 대처하는 것이 중요하다. 기존의 많은 오프라인 강화학습 방법론들은 학습 과정에서 정책이나 가치 함수에 제약을 두어, 분포 외 행동을 고르는 것을 방지하고자 하였다. 이러한 노력에도 불구하고, 학습된 정책을 실제 환경에서 구동하였을 때 여전히 상태 분포 변화에 자주 노출되게 된다. 오프라인 강화학습에서는 분포 외 상태에 대한 직접적인 학습 신호를 얻는 것이 불가하기 때문에, 상태 분포 변화는 일반화 (generalization)문제로 이어질 수 있다. 이 논문에서는 학습된 정책의 실제 구동 단계에서 이러한 일반화 문제를 완화하여 성능을 증진시킬 수 있는 사후 정책 보정 기법을 제안한다. 특별히, 우리는 오프라인 actor-critic 방법론 중 conservative Q-learning (CQL)과 같이 보수적인 학습을 채용하는 기법들에 집중한다. 주요 개념은 두 가지 관찰에서 비롯하는데, 첫째로는 분포 외 상태의 경우 정책이 가치 함수에 대해 충분히 최적화되지 않았을 수 있으며, 둘째로는 보수적으로 훈련된 가치 함수는 근처의 분포 내 상태를 찾는 데 도움이 될 수 있다는 것이다. 우리는 D4RL 데이터셋을 사용하여 우리의 방법론을 검증하고 현재 최첨단 오프라인 actor-critic 기법들의 성능을 현저하게 향상시킬 수 있음을 보인다.