Standard reinforcement learning (RL) aims to learn a reward-maximizing policy through online interaction with the MDP environment. However, in many real-world domains, naive application of RL may be problematic especially when some behaviors of the agent can cause irrecoverable damage to the agent itself or its surroundings. Therefore, for RL to be applied to practical problems, we should consider the notion of safety in the process of policy learning and execution. In this thesis, we address safety in RL from two perspectives: (1) safety via offline learning, and (2) safety via constraints. First, we consider the offline RL problem where the agent optimizes the policy solely from the pre-collected experiences, whose learning process is essentially safe in that it does not involve taking actions sampled from the unoptimized policy in the real environment. We present two different offline RL algorithms using gradient-based hyperparameter optimization and using stationary distribution correction estimation. Second, we consider the constrained MDP (CMDP), which provides a framework to encode safety specifications through cost constraints. We present a scalable solution method for CMDPs based on the Monte-Carlo tree search. Lastly, we consider the offline constrained RL problem that lies in the intersection of the two safety considerations. We introduce an efficient offline constrained RL algorithm that aims to compute a cost-conservative policy for actual constraint satisfaction by constraining the cost upper bound.
표준적인 강화학습은 에이전트가 MDP로 모델링되는 환경과 온라인으로 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 것을 목표로 한다. 하지만 에이전트의 특정 행동이 에이전트 및 그 주변에 돌이킬 수 없는 피해를 초래할 수 있는 현실의 많은 도메인에 강화학습을 단순 적용하는 것은 문제를 일으킬 수 있다. 따라서 에이전트를 현실의 상황에 적용하기 위해서는 행동 정책의 학습과 그 실행에서 '안전성'에 대한 고려가 필수적일 것이다. 본 학위논문에서는 강화학습에서의 안전성을 (1) '오프라인 학습을 통한 안전성'과 (2) '제약을 통한 안전성'의 크게 두 가지 측면에서 다루고자 한다. 첫째, 에이전트가 사전 수집된 경험만으로 정책을 최적화하는 오프라인 강화학습 문제를 고려하는데, 학습 과정에서 온전히 최적화되기 전의 정책에서 선택한 행동을 실제 환경에 취하는 일이 없기 때문에 안전한 학습이 가능하다. 그래디언트 기반 하이퍼파라미터 최적화 및 정적 분포 보정 추정 (stationary distribution correction estimation)을 사용하는 두 가지 오프라인 강화학습 알고리즘을 제시한다. 둘째, 제약이 있는 마코프 의사 결정 문제 (CMDP)를 고려하는데, 이는 문제의 안전 요구사양을 자연스럽게 기술할 수 있는 프레임워크를 제공한다. 매우 큰 CMDP를 풀 수 있는 몬테-카를로 트리 탐색 기반 방법론을 제시한다. 마지막으로, 오프라인 학습과 CMDP의 두 교집합에 해당하는 '오프라인 제약있는 강화학습' 문제를 고려한다. 실제 환경에서 제약 조건을 만족할 수 있도록 비용의 상한을 제약함으로써 비용-보수적인 정책을 계산하는 것을 목표로 하는 효율적인 알고리즘을 제시한다.