Offline reinforcement learning (RL) aims to learn without additional interaction with the environment, based on the pre-collected dataset. It has recently gathered attention due to its promise for real-world applications. Unlike online RL where the agent's predictions can be further corrected through additional interactions, offline RL requires robust policy improvement under the potentially incorrect predictions. To do this, it is necessary to accurately measure the uncertainty of the implicitly or explicitly constructed environment model, and design an algorithm that can find a trade-off between the potential policy performance and the uncertainty in policy evaluation. In this thesis, we study offline RL algorithms about (1) finding a good trade-off using a validation split and (2) learning model that is more robust especially for offline RL.
오프라인 강화학습은 자율 에이전트가 환경과의 추가적인 상호작용 없이 미리 모인 데이터를 기반으로 학습하는 것을 목표로 하는 분야로, 최근 강화학습 알고리즘의 실세계 적용을 위한 주요 단계로서 주목받고 있다. 추가적인 상호작용을 통해 에이전트의 예측이 점점 정확해지는 온라인 강화학습 상황과는 달리, 오프라인 강화학습 상황에서는 잘못된 예측 하에서 강인하게 정책을 개선해야만 한다. 이를 위해서는, 데이터 기반으로 잠재적으로 혹은 명시적으로 구성되는 환경 모델의 예측 불확실성을 정확하게 측정하고, 잠재적인 정책 성능과 정책 성능 예측의 불확실성 사이의 절충점을 정확하게 찾아낼 수 있는 알고리즘을 설계해야 한다. 본 학위논문에서는 기존 오프라인 강화학습 알고리즘의 성능을 개선할 수 있는 두 가지 방법론을 제시하는데, (1) 검증데이터를 이용하여 절충점을 찾아내는 알고리즘 그리고 (2) 오프라인 강화학습 상황에서 더욱 정확할 수 있는 모델 학습 기법들을 다룬다.