서지주요정보
Learning interrupted policy for mission completion in unknown environment = 미지 환경에서의 임무 수행을 위한 중단 정책 학습
서명 / 저자 Learning interrupted policy for mission completion in unknown environment = 미지 환경에서의 임무 수행을 위한 중단 정책 학습 / Wonseok Oh.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039019

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MME 22033

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Although deep reinforcement learning (RL) has succeeded in simple tasks, deep RL has failed in completing missions that require a long sequence of actions. Prior knowledge such as the hierarchical structure and task planning techniques were adopted in RL to solve such complicated missions. However, RL, which adopted such prior knowledge, could not give optimal solution owing to the inherited inefficiency in prior knowledge. The existing methodology that combines hierarchical RL and task planning also suffers from this problem. In this study, a method for learning interrupted policy, named interrupt enabled hierarchical planning with reinforcement learning (IE-HiP-RL), which improves each option's terminal condition to complete a mission efficiently, was proposed. Particularly, option selection was performed only after a specific task plan output action for the task plan execution option. The single-agent experiments indicated that the proposed IE-HiP-RL successfully addressed the option's inefficiency issue because it reduced the makespan by approximately 37$\%$ and had at a 6$\%$p higher success rate than the baselines in single-agent environment. The multi-agent experiments showed the possibility of IE-HiP-RL through a higher reward and success rate than baselines.

강화학습은 간단한 임무들은 근래에 성공적으로 수행했으나 임무 수행을 위해 일련의 긴 행동들이 필요한 복잡한 임무 수행을 위해서는 계층적 구조나 기존의 작업 계획과 같은 사전지식이 반드시 필요하였다. 그러나 계층적 구조나 사전 지식이 내재한 비효율성으로 인해 이들을 도입한 강화학습이 최적의 해를 내놓지 않을 수 있다. 계층적 구조와 작업 계획을 결합한 탐색 및 작업 계획을 옵션으로 두고 이를 강화학습으로 선택하게 하는 기존에 제시되었던 방식에서도 최적의 해를 내놓지 못하는 문제가 있었다. 본 연구에서는 기존의 방식을 그대로 이용하여 문제를 해결하되, 옵션의 종결 조건을 개선하는 중단 정책을 학습하는 방안을 제시하였다. 작업 계획은 특정 의미론적인 행동을 할 때 마다 옵션을 다시 선택하게 하여 미지 환경에서의 임무 수행 중 발생하는 정보의 변화에 대응할 수 있게 하여 더 효율적으로 임무를 수행하게 하는 방안을 제시하였다. 제시한 방법을 단일 에이전트 및 여러 에이전트 상황에서의 수색 및 구조 문제에 적용하여 그 성능을 살펴보았다. 실험 결과, 제안한 중단 정책 학습 방법을 기존 방법론과 비교하였을 때, 단일 에이전트 환경에서 임무 수행에 걸리는 총 시간은 약 37% 감소하였고, 임무 성공률은 약 6%p 더 높은 결과를 보여주었다.

서지기타정보

서지기타정보
청구기호 {MME 22033
형태사항 iii, 32 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 오원석
지도교수의 영문표기 : Jinwhan Kim
지도교수의 한글표기 : 김진환
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 29-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서