서지주요정보
Post-hoc policy adjustment for offline actor-critic reinforcement learning methods = 오프라인 강화학습을 위한 사후 정책 보정 기법
서명 / 저자 Post-hoc policy adjustment for offline actor-critic reinforcement learning methods = 오프라인 강화학습을 위한 사후 정책 보정 기법 / Seonghyun Ban.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041904

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Offline reinforcement learning (RL) seeks to learn policies from previously collected datasets alone. This requires offline RL methods to address the distribution shift between the data collection policy underlying the dataset and the learned policy. Many offline RL methods often regularize the policy or value function during training to discourage the choice of out-of-distribution actions. Despite these efforts, the learned policies often suffer from state distribution shift during deployment. Since there is no direct learning signal for out-of-distribution states, this shift can lead to generalization problems. In this paper, we propose a post-hoc policy adjustment method for deployment phase to enhance the policy. Specifically, we focus on offline actor-critic methods employing conservatism, such as conservative Q-learning (CQL). The main concept originates from two key observations: first, for out-of-distribution states, the actor might not be optimized sufficiently regarding the critic, and second, the conservatively trained critic can aid in locating a nearby in-distribution state. We test our method using the D4RL benchmark and show that it can notably improve the performance of current state-of-the-art offline actor-critic methods.

오프라인 강화학습은 사전에 수집한 데이터셋만을 활용하여 효과적인 정책을 학습하는 것을 목표로 한다. 이를 위해서는 학습된 정책과, 데이터셋을 수집할 때 사용된 정책 사이에 존재하는 분포 변화 (distribution shift) 에 대처하는 것이 중요하다. 기존의 많은 오프라인 강화학습 방법론들은 학습 과정에서 정책이나 가치 함수에 제약을 두어, 분포 외 행동을 고르는 것을 방지하고자 하였다. 이러한 노력에도 불구하고, 학습된 정책을 실제 환경에서 구동하였을 때 여전히 상태 분포 변화에 자주 노출되게 된다. 오프라인 강화학습에서는 분포 외 상태에 대한 직접적인 학습 신호를 얻는 것이 불가하기 때문에, 상태 분포 변화는 일반화 (generalization)문제로 이어질 수 있다. 이 논문에서는 학습된 정책의 실제 구동 단계에서 이러한 일반화 문제를 완화하여 성능을 증진시킬 수 있는 사후 정책 보정 기법을 제안한다. 특별히, 우리는 오프라인 actor-critic 방법론 중 conservative Q-learning (CQL)과 같이 보수적인 학습을 채용하는 기법들에 집중한다. 주요 개념은 두 가지 관찰에서 비롯하는데, 첫째로는 분포 외 상태의 경우 정책이 가치 함수에 대해 충분히 최적화되지 않았을 수 있으며, 둘째로는 보수적으로 훈련된 가치 함수는 근처의 분포 내 상태를 찾는 데 도움이 될 수 있다는 것이다. 우리는 D4RL 데이터셋을 사용하여 우리의 방법론을 검증하고 현재 최첨단 오프라인 actor-critic 기법들의 성능을 현저하게 향상시킬 수 있음을 보인다.

서지기타정보

서지기타정보
청구기호 {MAI 24015
형태사항 iii, 22 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 반성현
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 15-16
주제 Offline Reinforcement Learning
Distribution Shift
Post-hoc Adjustment
오프라인 강화학습
분포 변화
사후 보정
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서