서지주요정보
Algorithms for safe reinforcement learning = 안전한 강화학습을 위한 알고리즘 연구
서명 / 저자 Algorithms for safe reinforcement learning = 안전한 강화학습을 위한 알고리즘 연구 / Jongmin Lee.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038597

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCS 22012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Standard reinforcement learning (RL) aims to learn a reward-maximizing policy through online interaction with the MDP environment. However, in many real-world domains, naive application of RL may be problematic especially when some behaviors of the agent can cause irrecoverable damage to the agent itself or its surroundings. Therefore, for RL to be applied to practical problems, we should consider the notion of safety in the process of policy learning and execution. In this thesis, we address safety in RL from two perspectives: (1) safety via offline learning, and (2) safety via constraints. First, we consider the offline RL problem where the agent optimizes the policy solely from the pre-collected experiences, whose learning process is essentially safe in that it does not involve taking actions sampled from the unoptimized policy in the real environment. We present two different offline RL algorithms using gradient-based hyperparameter optimization and using stationary distribution correction estimation. Second, we consider the constrained MDP (CMDP), which provides a framework to encode safety specifications through cost constraints. We present a scalable solution method for CMDPs based on the Monte-Carlo tree search. Lastly, we consider the offline constrained RL problem that lies in the intersection of the two safety considerations. We introduce an efficient offline constrained RL algorithm that aims to compute a cost-conservative policy for actual constraint satisfaction by constraining the cost upper bound.

표준적인 강화학습은 에이전트가 MDP로 모델링되는 환경과 온라인으로 상호작용하며 보상을 최대화하는 행동 정책을 학습하는 것을 목표로 한다. 하지만 에이전트의 특정 행동이 에이전트 및 그 주변에 돌이킬 수 없는 피해를 초래할 수 있는 현실의 많은 도메인에 강화학습을 단순 적용하는 것은 문제를 일으킬 수 있다. 따라서 에이전트를 현실의 상황에 적용하기 위해서는 행동 정책의 학습과 그 실행에서 '안전성'에 대한 고려가 필수적일 것이다. 본 학위논문에서는 강화학습에서의 안전성을 (1) '오프라인 학습을 통한 안전성'과 (2) '제약을 통한 안전성'의 크게 두 가지 측면에서 다루고자 한다. 첫째, 에이전트가 사전 수집된 경험만으로 정책을 최적화하는 오프라인 강화학습 문제를 고려하는데, 학습 과정에서 온전히 최적화되기 전의 정책에서 선택한 행동을 실제 환경에 취하는 일이 없기 때문에 안전한 학습이 가능하다. 그래디언트 기반 하이퍼파라미터 최적화 및 정적 분포 보정 추정 (stationary distribution correction estimation)을 사용하는 두 가지 오프라인 강화학습 알고리즘을 제시한다. 둘째, 제약이 있는 마코프 의사 결정 문제 (CMDP)를 고려하는데, 이는 문제의 안전 요구사양을 자연스럽게 기술할 수 있는 프레임워크를 제공한다. 매우 큰 CMDP를 풀 수 있는 몬테-카를로 트리 탐색 기반 방법론을 제시한다. 마지막으로, 오프라인 학습과 CMDP의 두 교집합에 해당하는 '오프라인 제약있는 강화학습' 문제를 고려한다. 실제 환경에서 제약 조건을 만족할 수 있도록 비용의 상한을 제약함으로써 비용-보수적인 정책을 계산하는 것을 목표로 하는 효율적인 알고리즘을 제시한다.

서지기타정보

서지기타정보
청구기호 {DCS 22012
형태사항 vi, 111 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이종민
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 100-107
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서