서지주요정보
Performance enhancement in multigoal reinforcement learning using hindsight experience replay = Hindsight experience replay를 통한 다중 목표 강화학습 성능 향상
서명 / 저자 Performance enhancement in multigoal reinforcement learning using hindsight experience replay = Hindsight experience replay를 통한 다중 목표 강화학습 성능 향상 / Vecchietti, Luiz Felipe Santos.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037465

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DGT 21001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent advances in Artificial Intelligence (AI), especially in the area of deep reinforcement learning (RL), have been responsible for breakthrough results in robotics. For a specific type of RL, known as multigoal RL, the agent learns to achieve multiple different goals with a goal-conditioned policy. The goal-conditioned policy is trained to effectively generalize its behavior for multiple goals. At the beginning of training, the agent is still not capable of performing the task successfully and is mostly taking random exploratory actions over the action space. When the goal space is large and rewards are sparse, the exploration phase leads to a very low proportion of successful experiences in the training batches. To this end, hindsight experience replay (HER) increases sampling efficiency by converting unsuccessful episodes into successful episodes substituting the original goal by the goal achieved at the end of the episode. In this thesis, the framework that combines a deep RL algorithm with HER to solve multigoal RL problems is investigated and methods to enhance the final success rate and convergence speed are proposed. Proposed methods are combined with HER for experiments in robotic control tasks to demonstrate enhanced performance when compared to the original framework and other performance enhancement methods.

최근 인공지능의 발전은 로봇 공학에서 획기적인 성과를 내고있으며, 특히 강화학습 분야에서 그 성과가 뚜렷하다. 다중 목표 강화학습이라고 알려진 특정 유형의 강화학습에서 에이전트는 목표 조건 정책을 이용해 다수의 목표를 달성하는 방법을 배운다. 목표 조건 정책은 다수의 목표를 달성하기 위한 행동을 효과적으로 일반화 하도록 학습된다. 학습 초기에 에이전트는 주어진 작업을 성공적으로 수행할 수 없으며 대부분 행동 공간내에서 탐색된 행동을 무작위로 수행한다. 목표 공간이 크고 보상의 빈도가 드물 때 탐색의 단계에서 학습 배치에서 성공 경험이 차지하는 비율이 매우 낮아진다. 이를 해결하기 위해 hindsight experience replay (HER) 알고리즘에서는 처음 주어졌던 목표를 해당 에피소드 마지막에서 달성한 목표로 변환함으로써 실패 경험을 성공 경험으로 바꾸어 샘플링 효율을 증가시킨다. 본 논문에서는 다중 목표 강화학습 문제를 해결하기 위하여 심층 강화학습과 HER을 결합하는 프레임워크가 논의되며 최종 성공률 및 수렴 속도를 향상시키기 위한 방법들이 제안된다. 기존의 프레임워크와 다른 성능 향상 방법들과 비교했을 때 로봇 제어 작업 실험에서 향상된 성능을 보임을 입증하기 위해 제안된 방법들은 HER과 결합된다.

서지기타정보

서지기타정보
청구기호 {DGT 21001
형태사항 ix, 72 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : Luiz Felipe Santos Vecchietti
지도교수의 영문표기 : Dongsoo Har
지도교수의 한글표기 : 하동수
수록잡지명 : "Sampling Rate Decay in Hindsight Experience Replay for Robot Control". IEEE Transactions on Cybernetics, (2020)
수록잡지명 : "Batch Prioritization in Multigoal Reinforcement Learning". IEEE Access, 8, pp.137449-137461(2020)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 조천식녹색교통대학원,
서지주기 References : p. 67-70
QR CODE qr code