서지주요정보
Sample-efficient deep reinforcement learning via episodic backward update = 에피소드 후향 업데이트를 통한 효율적인 심층강화학습
서명 / 저자 Sample-efficient deep reinforcement learning via episodic backward update = 에피소드 후향 업데이트를 통한 효율적인 심층강화학습 / Su Young Lee.
저자명 Lee, Su Young ; 이수영
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033803

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MEE 19054

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

We propose Episodic Backward Update – a new algorithm to boost the performance of a deep reinforcement learning agent by a fast reward propagation. In contrast to the conventional use of the experience replay with uniform random sampling, our agent samples a whole episode and successively propagates the value of a state to its previous states. Our computationally efficient recursive algorithm allows sparse and delayed rewards to propagate efficiently through all transitions of a sampled episode. We evaluate our algorithm on 2D MNIST maze environment and 49 games of the Atari 2600 environment, and show that our method improves sample efficiency with a competitive amount of computational cost.

본 논문에서는 신속한 보상값 전달을 통해 효율적인 심층 강화학습을 진행하는 에피소드 후향 업데이트 알고리즘을 제안한다. 균등분포를 사용해 리플레이 메모리에서 스텝 단위로 샘플을 취하는 통상적인 강화학습 방법과 다르게 본 논문에서는 에피소드단위로 샘플을 취한 후 상태값을 시간 역순으로 전달한다. 논문에서 제안한 알고리즘은 샘플의 수가 적고 보상값이 희박한 환경에서도 신속한 보상값 전파가 가능하다. 제안한 알고리즘을 2D MNIST maze 환경과 Atari 2600 환경에서 비교하여 기존 알고리즘에 비해 현저한 성능 개선이 이루어짐을 보였다.

서지기타정보

서지기타정보
청구기호 {MEE 19054
형태사항 iii, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이수영
지도교수의 영문표기 : Sae-Young Chung
지도교수의 한글표기 : 정세영
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 26-27
주제 deep reinforcement learning
deep Q-learning
deep neural network
experience replay
sample efficiency
심층강화학습
심층 Q 러닝
심층 인공 신경망
경험 재현
샘플 효율성
QR CODE qr code