서지주요정보
Offline-to-online reinforcement learning via balanced experience replay and pessimistic Q-ensemble = 균형된 경험 리플레이와 보수적인 앙상블 Q 러닝을 통한 오프라인-온라인 강화학습
서명 / 저자 Offline-to-online reinforcement learning via balanced experience replay and pessimistic Q-ensemble = 균형된 경험 리플레이와 보수적인 앙상블 Q 러닝을 통한 오프라인-온라인 강화학습 / Seunghyun Lee.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038218

소장위치/청구기호

학술문화관(문화관) 보존서고

MAI 21008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent progress in offline reinforcement learning (RL) has made it possible to train strong RL agents from offline datasets. However, depending on the quality of the trained agents and the application being considered, it is often desirable to fine-tune such offline RL agents via further online interaction. Here, we make an observation that state-action distribution shift may lead to severe bootstrap error during fine-tuning. To address this issue, we first propose a balanced replay scheme that prioritizes samples encountered online while also encouraging the use of near-on-policy samples from the offline dataset. Furthermore, we leverage multiple pessimistic offline Q-functions, thereby preventing overoptimism concerning unfamiliar actions at novel states during the initial training phase. We show that the proposed method stabilizes Q-learning during fine-tuning and improves the final performance and sample-efficiency of fine-tuned agents on various continuous control tasks from the D4RL benchmark suite.

최근 제안된 오프라인 강화학습 알고리즘들은 미리 모아둔 데이터만을 가지고 강력한 강화학습 에이전트를 학습할 수 있음을 보여주고 있다. 하지만, 미리 모아둔 데이터의 질, 혹은 적용 사례에 따라 오프라인으로 학습된 에이전트를 온라인으로 미세조정 해야 하는 경우가 생길 수 있다. 본 학위논문에선 이러한 경우 오프라인 데이터의 분포와 에이전트가 온라인으로 수집하는 데이터의 분포 사이의 간극이 심각한 부트스트랩 오류를 야기할 수 있음을 보인다. 이 문제를 해결하기 위해 본 논문에서는 온라인 데이터 및 온라인 데이터에 가까운 오프라인 데이터를 우선적으로 사용하게끔 하는 균형된 경험 리플레이 방법을 제안한다. 또한, 보수적으로 배워진 Q 함수들의 앙상블을 이용하여 에이전트가 온라인에서 맞닥뜨리는 상태/행동들에서 좀 더 보수적으로 행동하게끔 하고, 이를 통해 부트스트랩 오류를 줄일 수 있음을 보였다. 최근 고안된 D4RL 벤치마크 태스크를 통해 이 논문에서 제안한 방법이 우수한 성능을 보임을 실험적으로 확인하였다.

서지기타정보

서지기타정보
청구기호 {MAI 21008
형태사항 iv, 24 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이승현
지도교수의 영문표기 : Jinwoo Shin
지도교수의 한글표기 : 신진우
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : AI대학원,
서지주기 References : p. 20-22
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서