서지주요정보
Reinforcement learning with constraints on distribution functions = 확률 분포 함수에 대한 제한조건이 있는 강화학습
서명 / 저자 Reinforcement learning with constraints on distribution functions = 확률 분포 함수에 대한 제한조건이 있는 강화학습 / Whiyoung Jung.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039563

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22053

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement learning (RL) has been a major topic in deep learning whose objective is to find an optimal policy for a given environment. Such RL has been applied successfully to games, simulations, and real robots, but these are relatively easier than various autonomous control systems in real world. For successful application to various real control systems, developing good RL algorithms that can learn an optimal policy for more challenging environments such as sparse reward environments and safety environments, is of great importance from both theoretical and practical perspectives. In this dissertation thesis, we consider two constraints on a policy 1) to achieve faster and stable policy improvement even on sparse reward environments, and 2) to guarantee safety of its policy. Using these constraints, we propose learning frameworks for RL based on the theory that we proved under some mild assumptions. In the first half, a new population-guided parallel learning scheme is proposed to enhance the performance of RL. In the proposed scheme, multiple identical learners with their own value-functions and policies share a common experience replay buffer, and search a good policy in collaboration with the guidance of the best policy information. The key point is that the information of the best policy is fused in a soft manner by constructing a constrained optimization problem with a constraint on the distance between the non-best policies and the previous best policy. We used Lagrange function of the constrained problem as an augmented policy loss function and this loss function guides the non-best policies in the population to search for an enlarged overall region in the policy space by the multiple learners. Monotone improvement of the expected cumulative return by the proposed scheme is proved theoretically. Working algorithms are constructed by applying the proposed scheme to the twin delayed deep deterministic (TD3) policy gradient algorithm. Numerical results show that the constructed algorithm outperforms most of the current state-of-the-art RL algorithms, and the gain is significant in the case of sparse reward environment. Finally, we propose the framework of quantile-constrained RL to guarantee a target probability of outage event that the cumulative sum cost exceeds a given threshold. Most of the previous constrained RL works consider expected cumulative sum cost as the constraint. However, optimization with this constraint cannot guarantee a target probability of outage event that the cumulative sum cost exceeds a given threshold. This work proposes a framework, named Quantile Constrained RL (QCRL), to constrain the quantile of the distribution of cumulative sum cost that is a necessary and sufficient condition to satisfy the outage constraint. This is the first work that tackles the issue of applying policy gradient theorem to the quantile and provides theoretical results for approximating the gradient of the quantile. Based on the derived theoretical results and the technique of the Lagrange multiplier, we construct a constrained RL algorithm named Quantile Constrained Policy Optimization (QCPO). We use distributional RL with the Large Deviation Principle (LDP) to estimate quantiles and tail probability of cumulative sum cost for the implementation of QCPO. The implemented algorithm learns an optimal policy while it keeps satisfying the outage probability constraint during its learning process.

강화학습은 딥러닝의 중요한 주제 중 하나로 주어진 환경의 최적 정책을 학습하는 것이 목표이다. 이러한 강화학습은 게임, 시뮬레이션, 실제 로봇 등에 성공적으로 적용되어왔으나, 이러한 환경들은 다양한 실제 자동 제어 시스템에 비해 비교적 쉬운 환경이다. 다양한 실제 제어 시스템에 성공적으로 적용하기 위하여, 학습이 더 어려운 드문 보상 환경 및 안전 환경등에서도 최적의 정책을 학습하는 강화학습 알고리즘에 대한 연구는 이론적 및 실용적 측면에서도 매우 중요하다. 본 학위 논문에서는 다음의 두 목적을 달성하기 위하여 정책에 제한조건을 이용하는 방법을 고려하고, 증명한 이론을 바탕으로 새로운 학습 방법을 제시한다: 1) 드문 보상 환경에서도 빠르며 안정적인 정책 학습, 2) 정책의 안전성 보장 본 논문의 첫 절반에서는 강화학습의 성능을 증가시키기 위한 새로운 군집 기반 병렬 학습을 제시한다. 제시한 방법은 여러개의 동일한 학습자로 구성되어있으며, 각 학습자는 자신의 가치 함수와 정책을 가지고 있다. 또한 이 학습자들은 동일한 경험 리플레이 버퍼를 공유하고 있으며, 베스트 정책의 정보로부터 안내되어 좋은 정책을 찾는다. 이 방법에서 중요한 점은 다중 학습자를 이용하여 동시에 넓은 정책 공간을 탐색하여 정책을 업데이트하기 위하여 베스트 정책으로부터의 거리에 제한조건을 고려하여 학습하는 것이다. 제안한 방법은 베스트 정책으로부터의 거리에 제한된 강화학습 문제를 Lagrange 함수로 표현하고, 이를 정책 학습의 손실 함수로 이용하여, 군집 내의 다른 정책을 베스트 정책을 중심으로 넓은 공간에서 학습하도록 안내한다. 이 방법의 성능 증가는 이론으로 증명하였으며, twin delayed deep deterministic (TD3) policy gradient 알고리즘과 결합하여 제안한 방법을 구현하였다. 구현된 알고리즘은 다른 최신 강화학습 알고리즘보다 높은 성능을 가지며, 특히 드문 보상 환경에서 더 크게 증가하였다. 마지막 절반에서는 누적 비용이 특정 임계값을 넘어가는 위험한 상황에 대한 목표 확률을 보장하기 위한 분위수(quantile)-제한 강화학습 방법을 제시한다. 대부분의 기존 제한 강화학습은 누적 비용의 기댓값을 제한조건으로 사용한 방법이다. 하지만 기댓값에 대한 제한조건을 이용한 최적화는 누적 비용이 특정 임계값을 넘어가는 위험한 상황에 대한 확률을 목표 확률이 되도록 제어하지 못한다. 본 논문에서는 이러한 위험 확률을 만족하기위한 필요-충분 조건인 분위수 제한 조건을 이용하여, 이를 제한하기 위한 분위수-제한 강화학습(QCRL) 방법을 제시한다. 본 논문은 정책-경사 정리를 분위수에 적용하지 못하는 문제를 제시한 첫번째 논문이며, 분위수에 대한 정책-경사를 근사하는 이론적 방법을 제시한다. 제안된 이론적 방법과 라그랑주 승수법을 이용하여 분위수-제한 정책 최적화(QCPO)라는 알고리즘을 구현하였다. 또한 이 알고리즘의 구현을 위해 확률분포(distributional) 강화학습 및 대분포 이론(large deviation principle) 을 이용하여 누적 비용의 분위수와 꼬리 확률(tail probability)을 예측하였다. 구현된 알고리즘은 정책 학습 과정에서 위험 확률에 대한 제한조건을 지속적으로 만족시키며 최적의 정책을 학습한다.

서지기타정보

서지기타정보
청구기호 {DEE 22053
형태사항 iv, 73 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정휘영
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
수록잡지명 : "Population-Guided Parallel Policy Search for Reinforcement Learning". International Conference on Learning Representations (ICLR), (2020)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 64-69
주제 Reinforcement learning
Constrained reinforcement learning
Probabilistic constraint
강화학습
제한조건 강화학습
확률적 제한조건
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서