서지주요정보
Novel entropy frameworks for sample-efficient exploration in off-policy reinforcement learning = 오프 폴리시 강화학습에서의 샘플 효율적 탐험을 위한 새로운 엔트로피 활용법
서명 / 저자 Novel entropy frameworks for sample-efficient exploration in off-policy reinforcement learning = 오프 폴리시 강화학습에서의 샘플 효율적 탐험을 위한 새로운 엔트로피 활용법 / Seungyul Han.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037874

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 21081

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, we investigate novel entropy frameworks for sample-efficient exploration in off-policy reinforcement learning under continuous action-space environments. Additionally, we provide off-policy generalization of PPO for better sample exploitation. This thesis consists of four parts and its contents are as follows. In the first part of the thesis, sample-aware policy entropy regularization is proposed to enhance the conventional policy entropy regularization for better exploration. Exploiting the sample distribution obtainable from the replay buffer, the proposed sample-aware entropy regularization maximizes the entropy of the weighted sum of the policy action distribution and the sample action distribution from the replay buffer for sample-efficient exploration. A practical algorithm named diversity actor-critic (DAC) is developed by applying policy iteration to the objective function with the proposed sample-aware entropy regularization. Numerical results show that DAC significantly outperforms existing recent algorithms for reinforcement learning. In the second part of the thesis, we propose a max-min entropy framework for reinforcement learning (RL) to overcome the limitation of the maximum entropy RL framework in model-free sample-based learning. Whereas the maximum entropy RL framework guides learning for policies to reach states with high entropy in the future, the proposed max-min entropy framework aims to learn to visit states with low entropy and maximize the entropy of these low-entropy states to promote exploration. For general Markov decision processes (MDPs), an efficient algorithm is constructed under the proposed max-min entropy framework based on disentanglement of exploration and exploitation. Numerical results show that the proposed algorithm yields drastic performance improvement over the current state-of-the-art RL algorithms. In the third part of the thesis, a new adaptive multi-batch experience replay scheme that uses the batch samples of past policies is proposed for proximal policy optimization (PPO) for continuous action control. The proposed scheme determines the number of the used past batches adaptively based on the average importance sampling (IS) weight. We combine PPO with the proposed scheme that maintains the advantages of original PPO and small bias due to low IS weights. Numerical results show that the proposed method significantly increases the performance on various continuous control tasks compared to original PPO. In the last part of the thesis, we resolve the problem that IS weights are typically clipped to avoid large variance in learning for IS-based reinforcement learning (RL) algorithms such as PPO. Policy update from clipped statistics can induce large bias, and bias from clipping makes it difficult to reuse old samples. Thus, we improves PPO by dimension wise IS weight clipping (DISC) which separately clips the IS weight of each action dimension to avoid large bias and adaptively controls the IS weight. This new technique enables efficient learning for high action-dimensional tasks and reusing old samples to increase the sample efficiency. Numerical results show that the proposed new algorithm outperforms PPO and other RL algorithms in various Open AI Gym tasks.

이 논문에서는 연속 행동 공간을 가정하는 오프-폴리시 강화학습에서 샘플 효율적 탐험을 위한 새로운 엔트로피 활용법에 대해 다루었다. 또한, 샘플을 더 효율적으로 활용하기 위한 PPO의 오프-폴리시 일반화 방법에 대해서 추가적으로 다루었다. 본 논문은 네 개의 항목으로 나뉘며 각 항목의 내용은 다음과 같다. 논문의 첫번째 항목에서는, 기존 정책 엔트로피 방법 대비 더 나은 효율의 탐험을 위한 샘플-인지 정책 엔트로피 정규화 기법을 제안하였다. 리플레이 버퍼에 저장된 샘플의 분포를 활용하여, 제안된 샘플-인지 엔트로피 정규화는 정책 분포와 샘플 행동 분포의 가중합을 최대화해서 탐험의 효율을 높일 수 있다. 제안한 샘플-인지 정규화에서 정책 이터레이션 방법을 제시하고, 이를 실용적으로 구현하는 diversity actor-critic (DAC) 기법을 제안하였다. 제안한 DAC 기법은 최근 제안된 다양한 강화학습 방법 대비 월등한 성능을 보여주었다. 논문의 두번째 항목에서는, 모델-프리 강화학습에서 기존 엔트로피 최대화 기법의 한계점을 극복하기 위한 최대-최소 엔트로피 기법을 제안하였다. 기존 엔트로피 최대화 기법은 엔트로피가 높은 상태들을 따라가서 정책 엔트로피를 증가시키는 것에 반해, 제안한 최대-최소 엔트로피 기법은 엔트로피가 낮은 상태를 방문해서 해당 상태의 정책 엔트로피를 높이는 것을 목표로한다. 일반적인 마르코브 결정 과정에서, 제안한 엔트로피 기법을 활용하기 위해 샘플의 탐험과 활용을 분리하는 효율적인 기법을 제안하였다. 제안한 기법은 기존 엔트로피 최대화 기법은 한계를 극복하고 순수 탐험과 보상이 있는 환경에서 다양한 최신 강화학습 기법들 대비 우수한 성능을 보여주었다. 논문의 세번째 항목에서는, 연속 행동 제어 환경에서 기존 온-폴리시 알고리즘 중 하나인 proximal policy optimization(PPO)의 샘플 효율성을 높이기 위해 이전 정책들의 배치 샘플들을 재사용 하는 adaptive multi-batch experience replay 기법을 제안하였다. 제안한 기법은 중요도 샘플링 계수에 기반하여 사용하는 이전 샘플 배치의 개수를 조절하며, 이로부터 편향이 크게 생기지 않으면서 PPO의 샘플 효율성을 높일 수 있다. 이로부터 제안한 방법은 PPO 대비 다양한 연속 행동 공간 환경에서 큰 성능 증가를 보여주었다. 논문의 마지막 항목에서는, PPO에서 이전 샘플을 재사용할 때 생기는 문제를 해결하기 위한 새로운 구조를 제안하였다. PPO는 정책 업데이트에서 중요도 샘플링 계수를 클립하는데, 본 논문에서는 이러한 클립으로부터 재사용하는 샘플들의 그라디언트가 사라지는 문제를 제시하였다. 또한, 본 논문에서는 정책을 차원별로 쪼개어 차원 별 중요도 샘플링 계수를 따로 클립하는 dimension-wise importance sampling (DISC) 기법을 제안하여 샘플의 그라디언트가 사라지는 문제를 해결하였다. 제안한 방법으로부터 고차원 연속 행동 공간을 가지는 환경에서도 이전 샘플들을 재사용 할 수 있고 기존 PPO 대비 샘플 효율성을 크게 증가시킬 수 있다. 제안한 방법은 다양한 최신 강화학습 알고리즘 대비 연속 행동 공간에서 최고 수준의 성능을 보여주었다.

서지기타정보

서지기타정보
청구기호 {DEE 21081
형태사항 viii, 98 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한승열
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
수록잡지명 : "Dimension-Wise Importance Sampling Weight Clipping for Sample-Efficient Reinforcement Learning". The 36th International Conference on Machine Learning, 2019,
수록잡지명 : "Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration". The 38th International Conference on Machine Learning, 2021,
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 88-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서