서지주요정보
Representation learning for visual control with world models = 세계 모델을 이용한 시각 제어를 위한 표현 학습
서명 / 저자 Representation learning for visual control with world models = 세계 모델을 이용한 시각 제어를 위한 표현 학습 / Younggyo Seo.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041434

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DAI 23002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Model-based approaches, which predict future consequences of potential actions and make decisions based on these predictions, hold substantial potential for efficiently learning to achieve target tasks. The capability of model-based agents relies on the accuracy of planning, but learning a world model with accurate planning capability is often difficult and costly. This dissertation argues that improving the representation learning from high-dimensional visual observations would enable us to efficiently learn world models and endow agents with the planning capability. First, we show how pre-training representations from diverse, action-free videos can accelerate world model learning on unseen environments, thereby reducing the number of samples required for solving the newly encountered tasks. Second, we present a new model-based framework that decouples visual representation learning and dynamics learning, along with a self-supervised learning approach that adapts a recently-developed masked autoencoding approach to be better suited for visual control. Finally, we extend our framework to a practical robot learning scenario that utilizes multiple cameras, by introducing a novel representation learning method that reconstructs masked viewpoints to learn cross-view information. The approaches we present in this thesis demonstrate strong empirical results in both simulated and real-world benchmarks, highlighting the importance of learning succinct visual representations for world model learning.

미래에 가능한 행동들로부터 이어지는 결과를 예측하고 이에 기반한 결정을 내리는 모델 기반 방법론은 목표 과제를 수행하는 법을 효율적으로 배우는 데에 있어 큰 잠재력을 갖는다. 그러나 이러한 모델 기반 에이전트의 성능은 미래 예측 및 설계의 정확성에 크게 의존하고, 이러한 높은 정확도를 갖는 세계 모델을 배우는 것은 어렵고 많은 비용을 수반한다고 알려져 있다. 본 논문은 고차원 이미지로부터 좋은 표현을 학습하는 방법론을 향상시킴으로서 세계 모델을 더욱 더 효율적으로 배울 수 있음을 보이는 것을 목표로 한다. 첫째, 본 논문은 다양한 비디오로부터 표현을 사전 학습함으로써 새로운 과제 수행 방법을 빠르게 학습할 수 있음을 보인다. 둘째, 본 논문은 표현 학습과 미래 예측 학습을 분리하는 방법론과 함께 최근에 고안된 마스킹 기반 오토인코더 방법론을 시각 제어에 맞게 개선하는 방법론을 제시한다. 셋째, 본 논문은 마스킹 된 다른 카메라 시점을 재구성하여 시각 표현을 학습하는 방법론을 제시한다. 본 논문에서는 제안한 방법론들을 실험적으로 검증하여 시뮬레이션 및 실세계 로봇 환경에서 기존 방법론 대비 향상이 있음을 보이고, 시각 표현을 개선하는 것이 시각 제어를 위한 효율적인 세계 모델 학습으로 이어질 수 있음을 보인다.

서지기타정보

서지기타정보
청구기호 {DAI 23002
형태사항 iii, 57 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 서영교
지도교수의 영문표기 : Jinwoo Shin
지도교수의 한글표기 : 신진우
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 42-54
주제 Model-based reinforcement learning
Visual control
Representation learning
Masked autoencoding
Video prediction
Pre-training
모델기반 강화학습
시각 제어
표현 학습
마스킹 기반 오토인코더
비디오 예측
사전학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서