서지주요정보
Exploratory networks using binary rewards for multigoal reinforcement learning = 이진 보상을 사용하는 탐험 네트워크를 통한 다중 목표 강화학습
서명 / 저자 Exploratory networks using binary rewards for multigoal reinforcement learning = 이진 보상을 사용하는 탐험 네트워크를 통한 다중 목표 강화학습 / Taeyoung Kim.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036904

소장위치/청구기호

학술문화관(문화관) 보존서고

MGT 21003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In multigoal reinforcement learning, an agent learns a policy to achieve multiple goals by interacting with an environment. With a sparse binary reward and a large state space, success cases do not appear frequently, which slows down the learning speed and increases the learning difficulty. To solve these problems, researches have been on reward design and efficient exploration and experience sampling. However, traditional reward designs may include a developer's bias and efficient exploration is still challenging. In this paper, a method to improve exploration efficiency while minimizing the developer's bias by using exploratory networks using binary rewards. The binary rewards used for exploratory networks involve minimal the developer's bias as a reward that makes the agent take actions that have the possibility of success, but since the main network is isolated and only depends on the goal reward, sparse binary reward, the final behavior of the main network only achieves the goal without involving the developer's bias. The proposed method can increase the exploration efficiency through the same effect as using a combined reward which has multiple terms in the reward function while maintaining the advantages of sparse binary rewards in which the developer's bias is not involved. In this paper, the proposed method is experimented to compare the performance of agent with and without the proposed method in Push task, PickAndPlace task, and Slide task, in which a robot moves an object and sends it to the target point. In three experiments, the cases with the proposed method show a higher success rate or marginally improved success rate compared to the cases without the proposed method.

다중목표 강화학습에서 에이전트는 환경과 상호작용하면서 다중 목표를 달성하는 전략을 배운다. 희소 이진 보상과 넓은 상태 공간은 작업의 성공률을 낮추고 학습의 느린 속도와 난이도 상승으로 연결된다. 이러한 문제의 해결 방법으로 보상 설계와 효율적인 탐험 및 경험 샘플에 대한 연구가 계속되어 왔다. 전통적인 보상 설계는 설계자의 편향이 포함될 수 있고 효율적인 탐험은 여전히 해결해야 할 문제이다. 이 논문에서 이진 보상을 사용하는 탐험 네트워크를 사용함으로 개발자의 편향을 최소화하면서 효율적인 탐험을 할 수 있게 한다. 탐험 네트워크에 사용되는 이진 보상은 성공의 가능성이 있는 행동을 하도록 하는 보상으로 설계자의 최소한의 개입이 들어가지만 에이전트는 고립되어 있고 희소 이진 보상인 목표 보상에만 의존하기 때문에, 에이전트의 최종 행동은 편향을 포함하지 않고 오직 목표를 달성한다. 제안된 방법을 사용하면 설계자의 편향이 개입되지 않는 희소 이진 보상의 장점을 유지하면서 복합 보상을 이용하는 것과 같은 효과를 통해 탐험 효율을 높일 수 있다. 이 논문에서 로봇이 물체를 목표지점으로 보내는 작업에 제안된 방법을 사용하여 성능을 비교한다. 세 가지 실험에서 제안된 방법을 사용한 경우 사용하지 않은 경우에 비해 높은 성공률을 보이거나 성공률이 약간 개선된 것이 확인되었다.

서지기타정보

서지기타정보
청구기호 {MGT 21003
형태사항 v, 36 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김태영
지도교수의 영문표기 : Dongsoo Har
지도교수의 한글표기 : 하동수
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 조천식녹색교통대학원,
서지주기 References : p. 33-35
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서