서지주요정보
Rewards Prediction Based Credit Assignment for Reinforcement Learning = 보상 예측 기반의 신뢰 할당을 통한 강화학습
서명 / 저자 Rewards Prediction Based Credit Assignment for Reinforcement Learning = 보상 예측 기반의 신뢰 할당을 통한 강화학습 / SEO, MINAH.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036806

소장위치/청구기호

학술문화관(문화관) 보존서고

MGT 19008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In many reinforcement learning cases, a reward for an action is not immediately given to the action, and this is called delayed reward. When the form of reward is sparse binary rewards, under which rewards are given only when an agent succeeds in achieving a goal, success signals do not appear frequently, so the learning speed gets slow and the difficulty of learning increases. In this paper, a method to do credit assignment and improve sample efficiency by selecting key-action that contributed to receiving rewards among a series of actions, is proposed. To actions made precedent to the key-action, smaller reward than the key-action’s is given, so that the problem that success signals do not often appear can be alleviated. The main behavior is based on the predicted value of the rewards to be received based on the previous information in episode. As one kind of credit assignment method, there is a traditional reward shaping, but it requires prior knowledge of the environment, and is likely to involve the designer's bias. The proposed method can has dynamic reward shaping effect using a reward function that is modified according to the agent's experience while using sparse binary reward that does not require prior knowledge. In this paper, a key-action detection is experimented in the slide task that robot hits a puck and sends it to the goal point, and performance of the proposed method in push task, slide task, and maze solving task is shown. In the first experiment, it is confirmed that a robot detects proper key-action, which is at the moment just before the robot hit the object. In the other experiments, all the proposed cases show higher success rate or marginally improved performance than the cases without the proposed method.

많은 강화학습 케이스에서 행동에 대한 보상이 즉각적으로 지급되지 않고, 이를 지연된 보상이라고 한다. 추가적으로, 보상의 형태가 성공을 할 때만 보상이 주어지는 희소 이진 보상인 경우에는 성공 시그널이 자주 나타나지 않기 때문에 학습 속도가 더디고 학습의 난이도가 상승한다. 이 논문에서는 일련의 행동 중에서 보상을 받는 것에 가장 큰 역할을 한 행동인 주요 행동을 골라 추가적인 보상을 지급하고 주요 행동의 몇 스텝 이전에 이루어진 행동들에도 주요 행동보다는 작은 보상을 지급함으로써 성공 시그널이 자주 나타나지 않는 문제를 개선하여 샘플 효율을 높인다. 주요 행동은 이전 에피소드 정보를 바탕으로 미래의 보상을 예측한 값을 기반으로 찾는다. 보상을 받는 것에 기여한 행동에 보상을 지급하는 신뢰할당의 한 방법으로, 전통적인 보상 변형이 있으나, 환경에 대한 사전 지식이 필요하고 해당 작업을 위한 로드가 크며, 설계자의 편향이 개입될 확률이 높다. 제안된 방식을 사용하면 사전 지식이 필요하지 않은 희소 이진 보상의 장점을 활용하면서 에이전트의 경험에 따라 변형되는 보상 함수를 사용하는 동적 보상 변형 효과를 얻을 수 있다. 이 논문에서는 물건을 로봇이 쳐서 목표 지점으로 보내는 slide task에서 주요행동을 얼마나 잘 찾는지를 실험하고, push task와 slide task, 그리고 미로 찾기 문제에서 제안된 방식을 사용했을 때와 제안된 방식을 사용하지 않았을 경우의 성능을 비교한다. 첫 번째 실험에서는 물체를 로봇이 치기 직전의 행동을 주요 행동으로 감지하는 것을 확인되었고 나머지 실험에서는 다양한 하이퍼 파라미터를 조정한 제안된 케이스들 모두 제안된 방법이 적용되지 않은 케이스들에 비해 높은 성공률을 보이거나 적어도 비슷한 성공률을 보이는 것이 확인되었다.

서지기타정보

서지기타정보
청구기호 {MGT 19008
형태사항 iii, 46 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 서민아
지도교수의 영문표기 : Har, Dong Soo
지도교수의 한글표기 : 하동수
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 조천식녹색교통대학원,
서지주기 References : p.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서