서지주요정보
Hindsight goal ranking on replay buffer for sparse reward environment = 희소 보상 환경을 위한 재생 버퍼의 사후 목표 랭킹 방법
서명 / 저자 Hindsight goal ranking on replay buffer for sparse reward environment = 희소 보상 환경을 위한 재생 버퍼의 사후 목표 랭킹 방법 / Minh Tung Luu.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036616

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20128

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement learning (RL) agents successively updates their parameters by way of recalling past experience via experience replay. Strongly correlated updates violate many stochastic gradient-based algorithms, but experience replay disallows temporal correlations by mixing more and less recent experience for update. Furthermore, it permits rare experience to be reused in the update. It is a well-known fact that prioritizing the experience judiciously can improve sample efficiency. This paper considers a method for prioritizing the replay experience for off-policy RL referred to as Hindsight Goal Ranking (HGR) is proposed by addressing the limitation of Hindsight Experience Replay (HER) that generates hindsight goals based on uniform sampling. HGR samples with higher probability on the states visited in an episode with larger temporal difference (TD) error, which is considered as a proxy measure of the amount which the RL agent can learn from an experience. The actual sampling for large TD error is performed in two steps: first, an episode is sampled from the relay buffer according to the average TD error of its experiences, and then, for the sampled episode, hindsight goal leading to larger TD error is sampled with higher probability from future visited states. The proposed method combined with Deep Deterministic Policy Gradient (DDPG), an off-policy model-free actor-critic algorithm, accelerates learning significantly faster than that without any prioritization on four challenging simulated robotic manipulation tasks. The empirical results show that HGR uses samples more efficiently than previous methods on all four tasks. A video showing experimental results is available at https://youtu.be/KKqQ3aDzk1A.

강화학습 에이전트는 경험 다시보기를 통해 과거 경험을 회상함으로써 매개 변수를 연속적으로 갱신한다. 상관관계가 높은 갱신은 많은 확률적 그라디언트 기반 알고리즘을 위반하지만, 경험 재생은 최신 업데이트 경험을 혼합하여 시간적 상관관계의 유착을 피할 수 있다. 또한, 희귀한 경험을 매개변수 갱신에 반복적으로 사용할 수 있다. 경험의 우선순위를 신중하게 결정하면 샘플 효율성을 향상할 수 있다는 것은 잘 알려진 사실이다. 이 논문은 균일한 샘플링을 기반으로 사후 평가 목표를 생성하는 사후 평가 경험 재생의 한계를 해결함으로써 무정책 강화학습에서 사후 평가 목표 순위라고 하는 재생 경험에 대한 우선순위 결정 방법을 다룬다. 대신, 시간적 차이 오류가 큰 에피소드에서 방문한 상태에서 확률이 높은 사후 평가 목표 순위 샘플은 강화학습 에이전트가 경험에서 배울 수 있는 프락시 측정값으로 간주한다. 큰 시간적 차이 오류에 대한 실제 샘플링은 두 단계로 수행된다. 첫째, 경험의 평균 시간적 차이 오류에 따라 릴레이 버퍼에서 에피소드를 샘플링 한 다음 샘플링 된 에피소드에 대해 더 큰 시간적 오류로 이어지는 사후 평가 목표가 향후 방문할 상태로부터 더 높은 확률로 샘플링된다. 제안된 방법은 무정책 무모델 행위자 비평 알고리즘인 심층 결정적 정책 그라디언트와 결합 되어 네 가지 까다로운 시뮬레이션 된 로봇 조작 작업에 대한 우선순위를 지정하지 않고도 학습 속도를 크게 향상한다. 실험 결과는 사후 평가 목표 순위가 네 가지 작업 모두에서 이전 방법보다 더 효율적으로 샘플을 사용한다는 것을 보여준다. 실험 결과를 보여주는 비디오는 https://youtu.be/KKqQ3aDzk1A에서 볼 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 20128
형태사항 iii, 24 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : Minh Tung Luu
지도교수의 영문표기 : Changdong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 20-22
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서