Understanding the dense representation of visual data is the fundamental problem in deep learning. This dissertation investigates self-supervised learning methodologies to improve the understanding of dense representations of transformer-based neural networks in various visual data domains such as image, video, and vision-language. Specifically, we first propose a novel self-supervised pre-training algorithm for learning patch-level representations of image transformers, which can be beneficial to various visual downstream tasks such as object detection and semantic segmentation. In addition, we introduce video frame- and token-level self-supervised tasks for learning better temporal dynamics of video transformers, which can reduce spatial bias and improve video action recognition on various video transformers. Finally, we introduce a novel language-driven self-supervised task to better understand dense representations of vision-language transformers, which can improve downstream semantic segmentation tasks on pre-trained vision-language transformers without additional task-specific images and annotations. Namely, we show that dense self-supervision can improve the quality of representations of various visual transformers.
시각적 데이터의 조밀한 표현을 이해하는 것은 심층 학습의 핵심적인 문제이다. 본 논문은 다양한 시각적 데이터 영역에서 트랜스포머 기반 신경망의 조밀한 표현 이해 향상을 위한 자기지도 방법론들을 연구한다. 먼저 이미지 트랜스포머 신경망의 패치 단계 표현 학습에 대한 새로운 자기지도 사전학습 알고리즘을 제안하여, 객체 탐지 및 분할과 같은 조밀한 예측 작업에 대한 전이학습 성능을 개선하였다. 또한, 비디오 트랜스포머 신경망의 시간적 표현 이해 향상을 위해 비디오 프레임 및 토큰 단계 자기지도 학습 방법론을 제안하여, 다양한 비디오 트랜스포머 신경망의 공간적 편향성을 줄이고 비디오 동작 인식을 크게 향상시켰다. 마지막으로, 시각언어 트랜스포머 신경망의 조밀한 표현 이해 향상을 위한 새로운 언어 기반 자기지도 학습 방법론을 제안하여, 추가적인 이미지와 주석 없이도 사전 학습된 시각언어 트랜스포머 신경망의 이미지 분할 수행 능력을 크게 개선 하였다. 즉, 본 논문은 조밀한 자기지도 학습이 다양한 시각적 트랜스포머 신경망의 표현 수준을 개선할수 있음을 보여준다.