Model-based approaches, which predict future consequences of potential actions and make decisions based on these predictions, hold substantial potential for efficiently learning to achieve target tasks. The capability of model-based agents relies on the accuracy of planning, but learning a world model with accurate planning capability is often difficult and costly. This dissertation argues that improving the representation learning from high-dimensional visual observations would enable us to efficiently learn world models and endow agents with the planning capability. First, we show how pre-training representations from diverse, action-free videos can accelerate world model learning on unseen environments, thereby reducing the number of samples required for solving the newly encountered tasks. Second, we present a new model-based framework that decouples visual representation learning and dynamics learning, along with a self-supervised learning approach that adapts a recently-developed masked autoencoding approach to be better suited for visual control. Finally, we extend our framework to a practical robot learning scenario that utilizes multiple cameras, by introducing a novel representation learning method that reconstructs masked viewpoints to learn cross-view information. The approaches we present in this thesis demonstrate strong empirical results in both simulated and real-world benchmarks, highlighting the importance of learning succinct visual representations for world model learning.
미래에 가능한 행동들로부터 이어지는 결과를 예측하고 이에 기반한 결정을 내리는 모델 기반 방법론은 목표 과제를 수행하는 법을 효율적으로 배우는 데에 있어 큰 잠재력을 갖는다. 그러나 이러한 모델 기반 에이전트의 성능은 미래 예측 및 설계의 정확성에 크게 의존하고, 이러한 높은 정확도를 갖는 세계 모델을 배우는 것은 어렵고 많은 비용을 수반한다고 알려져 있다. 본 논문은 고차원 이미지로부터 좋은 표현을 학습하는 방법론을 향상시킴으로서 세계 모델을 더욱 더 효율적으로 배울 수 있음을 보이는 것을 목표로 한다. 첫째, 본 논문은 다양한 비디오로부터 표현을 사전 학습함으로써 새로운 과제 수행 방법을 빠르게 학습할 수 있음을 보인다. 둘째, 본 논문은 표현 학습과 미래 예측 학습을 분리하는 방법론과 함께 최근에 고안된 마스킹 기반 오토인코더 방법론을 시각 제어에 맞게 개선하는 방법론을 제시한다. 셋째, 본 논문은 마스킹 된 다른 카메라 시점을 재구성하여 시각 표현을 학습하는 방법론을 제시한다. 본 논문에서는 제안한 방법론들을 실험적으로 검증하여 시뮬레이션 및 실세계 로봇 환경에서 기존 방법론 대비 향상이 있음을 보이고, 시각 표현을 개선하는 것이 시각 제어를 위한 효율적인 세계 모델 학습으로 이어질 수 있음을 보인다.