서지주요정보
Data augmentation of state-based inputs for efficient offline reinforcement learning of robotic systems = 로봇 시스템의 효율적인 오프라인 강화학습을 위한 상태 기반 입력 데이터 증강 기법
서명 / 저자 Data augmentation of state-based inputs for efficient offline reinforcement learning of robotic systems = 로봇 시스템의 효율적인 오프라인 강화학습을 위한 상태 기반 입력 데이터 증강 기법 / Jungwoo Han.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040504

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MME 23052

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Reinforcement learning (RL) trains a policy that maximizes cumulative returns using the data collected by interacting with the environment. While data acquisition and training policy are simultaneously carried out in online RL, offline RL trains the policy with the pre-collected dataset. In this regard, for online RL, it can be expected that the training performance improves along with the improving quantity and quality of the acquired data. However, as offline RL uses a static dataset, the performance is highly dependent on the inherent nature of the dataset. In order to address such a problem, research on data augmentation has been actively taking place to improve training performance. With the rapid growth of the field of computer vision, many data augmentation methodologies for image inputs have been developed; however, data augmentation of state-based inputs, which are widely used in the field of robotics, has received relatively less attention. In this work, two data augmentation techniques for state-based inputs are suggested. \textit{K-mixup} extends mixup data augmentation, which are developed for image inputs, to state-based inputs by using Koopman theory. \textit{PST-DA} uses a variational autoencoder (VAE) to selectively augment the specific subset of the dataset. The evaluation results show that both methodologies successfully improve the performance of training on the offline RL benchmark datasets.

강화학습은 환경과의 상호작용을 통해 얻은 데이터를 활용하여 환경으로부터 얻는 보상을 최대화 할 수 있는 정책을 학습한다. 일반적인 강화학습 방법론은 데이터 취득과 학습 모두 실시간으로 진행하는 반면, 오프라인 강화학습은 미리 취득한 데이터를 활용하여 학습을 진행한다. 따라서, 일반적인 강화학습의 경우, 정책이 점차 학습됨에 따라 모이는 데이터의 양과 질이 꾸준히 나아지는 것을 기대할 수 있지만, 고정된 데이터셋으로 학습을 진행하는 오프라인 강화학습 같은 경우, 오프라인 데이터셋의 양과 질에 따라 성능이 크게 달라질 수 있다. 이와 비슷하게 고정된 이미지 데이터셋으로 학습을 진행하는 이미지 분류 문제와 같은 경우, 데이터의 양과 질 문제를 개선하기 위해 데이터 증강 기법에 대한 연구가 활발하게 이루어지고 있는데, 강화학습 분야에서의 데이터 증강 기법은 아직 제한적인 수준에 머물러 있다. 특히, 로봇 등에 많이 쓰이는 상태 기반 인풋에 관련된 데이터 증강 기법은 특히나 제한적이다. 본 연구에서는 상태 기반 인풋에도 사용될 수 있는 오프라인 강화학습의 성능 향상을 위한 두가지 데이터 증강 방법론을 제시하고자 한다. 첫번째는 이미지 기반 인풋에서 많이 쓰이는 Mixup 기법을 Koopman 이론을 통해 상태 기반 인풋으로 확장하는 K-mixup 데이터 증강 기법이며, 두번째는 심층 생성 모델인 variational autoencoder (VAE)을 활용하여 특정 데이터 부분 집합에 대한 데이터 증강을 진행하는 PST-DA 데이터 증강 기법이다. 두 증강 기법 모두 상태 기반 인풋에 대하여 데이터 증강을 진행하여 최종적인 오프라인 강화학습의 성능 향상을 이루어 냈음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MME 23052
형태사항 iv, 32 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한정우
지도교수의 영문표기 : Jinwhan Kim
지도교수의 한글표기 : 김진환
학위논문 학위논문(석사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 28-30
주제 Offline Reinforcement Learning
Data Augmentation
Generative Model
오프라인 강화학습
데이터 증강
생성 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서