서지주요정보
Algorithms for efficient offline reinforcement learning = 효율적인 오프라인 강화학습을 위한 알고리즘 연구
서명 / 저자 Algorithms for efficient offline reinforcement learning = 효율적인 오프라인 강화학습을 위한 알고리즘 연구 / Byung-Jun Lee.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037496

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 21007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Offline reinforcement learning (RL) aims to learn without additional interaction with the environment, based on the pre-collected dataset. It has recently gathered attention due to its promise for real-world applications. Unlike online RL where the agent's predictions can be further corrected through additional interactions, offline RL requires robust policy improvement under the potentially incorrect predictions. To do this, it is necessary to accurately measure the uncertainty of the implicitly or explicitly constructed environment model, and design an algorithm that can find a trade-off between the potential policy performance and the uncertainty in policy evaluation. In this thesis, we study offline RL algorithms about (1) finding a good trade-off using a validation split and (2) learning model that is more robust especially for offline RL.

오프라인 강화학습은 자율 에이전트가 환경과의 추가적인 상호작용 없이 미리 모인 데이터를 기반으로 학습하는 것을 목표로 하는 분야로, 최근 강화학습 알고리즘의 실세계 적용을 위한 주요 단계로서 주목받고 있다. 추가적인 상호작용을 통해 에이전트의 예측이 점점 정확해지는 온라인 강화학습 상황과는 달리, 오프라인 강화학습 상황에서는 잘못된 예측 하에서 강인하게 정책을 개선해야만 한다. 이를 위해서는, 데이터 기반으로 잠재적으로 혹은 명시적으로 구성되는 환경 모델의 예측 불확실성을 정확하게 측정하고, 잠재적인 정책 성능과 정책 성능 예측의 불확실성 사이의 절충점을 정확하게 찾아낼 수 있는 알고리즘을 설계해야 한다. 본 학위논문에서는 기존 오프라인 강화학습 알고리즘의 성능을 개선할 수 있는 두 가지 방법론을 제시하는데, (1) 검증데이터를 이용하여 절충점을 찾아내는 알고리즘 그리고 (2) 오프라인 강화학습 상황에서 더욱 정확할 수 있는 모델 학습 기법들을 다룬다.

서지기타정보

서지기타정보
청구기호 {DCS 21007
형태사항 iv, 61 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이병준
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 54-58
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서