서지주요정보
Learning critic network using priority in proximal policy optimization algorithm = 근접 정책 최적화 알고리즘에서 우선순위를 이용한 비평자 네트워크 학습
서명 / 저자 Learning critic network using priority in proximal policy optimization algorithm = 근접 정책 최적화 알고리즘에서 우선순위를 이용한 비평자 네트워크 학습 / Kihun Hong.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038006

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MMAS 21007

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Proximal policy optimization algorithm (PPO) is one of the representative methods of policy-based reinforcement learning using actor-critic networks. It has been used as a baseline in various works on reinforcement learning. In this thesis, we newly consider the priorities of samples in the learning process of the critic neural network of the original proximal policy optimization algorithm. With the help of priorities, we accelerate learning the value function faster which can help learning of the actor neural network. We use two different prioritization methods: one using a time difference error as in the prioritized experience replay of deep Q networks and the other one using the Gaussian process regression.

근접 정책 최적화 알고리즘은 행동자-비평자 네트워크를 사용하는 정책 기반 강화학습의 대표적인 방법 중 하나로 발표 이후 현재까지도 다양한 논문에서 베이스 라인으로 사용되고 있다. 본 논문에서는 기존의 근접 정책 최적화 알고리즘의 비평자 신경망 학습 과정에 우선순위를 추가하여 가치 함수를 좀 더 빠르게 학습시켜 행동자 신경망의 학습에까지 도움을 주는 방식을 제안한다. 우선 순위를 부여하는 방식은 기존의 심층 큐 신경망의 우선순위 기반 경험 재현에서와 같이 시간차 오차를 이용한 방법과 가우시안 과정 회귀를 이용한 방법, 두가지를 이용하였다.

서지기타정보

서지기타정보
청구기호 {MMAS 21007
형태사항 iii, 16 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍기훈
지도교수의 영문표기 : Ganguk Hwang
지도교수의 한글표기 : 황강욱
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 수리과학과,
서지주기 References : p. 13-14
QR CODE qr code