서지주요정보
Sample-efficient and safe deep reinforcement learning via reset deep ensemble agents = 앙상블 에이전트의 재설정을 통한 샘플 효율적이고 안전한 강화학습
서명 / 저자 Sample-efficient and safe deep reinforcement learning via reset deep ensemble agents = 앙상블 에이전트의 재설정을 통한 샘플 효율적이고 안전한 강화학습 / Yongjae Shin.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042120

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep reinforcement learning (RL) has achieved remarkable success in solving complex tasks through its integration with deep neural networks (DNNs) as function approximators. However, the reliance on DNNs has introduced a new challenge called primacy bias, whereby these function approximators tend to prioritize early experiences, leading to overfitting. To mitigate this primacy bias, a reset method has been proposed, which performs periodic resets of a portion or the entirety of a deep RL agent while preserving the replay buffer. However, the use of the reset method can result in performance collapses after executing the reset, which can be detrimental from the perspective of safe RL and regret minimization. In this paper, we propose a new reset-based method that leverages deep ensemble learning to address the limitations of the vanilla reset method and enhance sample efficiency. The proposed method is evaluated through various experiments including those in the domain of safe RL. Numerical results show its effectiveness in high sample efficiency and safety considerations.

심층 강화 학습은 심층 신경망을 함수 근사기로 사용하여 복잡한 작업을 해결하는 데 놀라운 성과를 거두었다. 그러나 심층 신경망에 의존함으로써 초기 경험을 우선시하는 프라이머시 바이어스라는 새로운 문제가 발생했다. 이는 이러한 함수 근사기들이 초기 경험을 우선시하여 과적합으로 이어질 수 있다는 것을 의미한다. 이 프라이머시 바이어스를 완화하기 위해 리셋 방법이 제안되었는데, 이 방법은 주기적으로 심층 강화 학습 에이전트의 일부 또는 전체를 재설정하면서 재생 버퍼를 보존한다. 그러나 리셋 방법의 사용은 리셋 후에 성능이 급격하게 하락할 수 있으며, 이는 안전한 강화 학습 및 리그렛 최소화 관점에서 해로울 수 있다. 본 논문에서는 기본 리셋 방법의 한계를 극복하고 샘플 효율성을 향상시키기 위해 심층 앙상블 학습을 활용하는 새로운 리셋 기반의 방법을 제안한다. 이 제안된 방법은 안전한 강화 학습 홤경을 포함한 다양한 실험을 통해 평가된다. 수치적 결과는 높은 샘플 효율성과 안전성 고려 측면에서의 효과를 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 24008
형태사항 iv, 31 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신용재
지도교수의 영문표기 : Youngchul Sung
지도교수의 한글표기 : 성영철
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 28-29
주제 Reinforcement learning
Ensemble learning
Safe reinforcement learning
Sample efficiency
강화학습
앙상블학습
안전한 강화학습
샘플 효율성
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서