서지주요정보
Guiding visual transformers via dense self-supervision = 조밀한 자기지도 학습을 통한 시각적 트랜스포머 개선
서명 / 저자 Guiding visual transformers via dense self-supervision = 조밀한 자기지도 학습을 통한 시각적 트랜스포머 개선 / Sukmin Yun.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040285

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23014

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Understanding the dense representation of visual data is the fundamental problem in deep learning. This dissertation investigates self-supervised learning methodologies to improve the understanding of dense representations of transformer-based neural networks in various visual data domains such as image, video, and vision-language. Specifically, we first propose a novel self-supervised pre-training algorithm for learning patch-level representations of image transformers, which can be beneficial to various visual downstream tasks such as object detection and semantic segmentation. In addition, we introduce video frame- and token-level self-supervised tasks for learning better temporal dynamics of video transformers, which can reduce spatial bias and improve video action recognition on various video transformers. Finally, we introduce a novel language-driven self-supervised task to better understand dense representations of vision-language transformers, which can improve downstream semantic segmentation tasks on pre-trained vision-language transformers without additional task-specific images and annotations. Namely, we show that dense self-supervision can improve the quality of representations of various visual transformers.

시각적 데이터의 조밀한 표현을 이해하는 것은 심층 학습의 핵심적인 문제이다. 본 논문은 다양한 시각적 데이터 영역에서 트랜스포머 기반 신경망의 조밀한 표현 이해 향상을 위한 자기지도 방법론들을 연구한다. 먼저 이미지 트랜스포머 신경망의 패치 단계 표현 학습에 대한 새로운 자기지도 사전학습 알고리즘을 제안하여, 객체 탐지 및 분할과 같은 조밀한 예측 작업에 대한 전이학습 성능을 개선하였다. 또한, 비디오 트랜스포머 신경망의 시간적 표현 이해 향상을 위해 비디오 프레임 및 토큰 단계 자기지도 학습 방법론을 제안하여, 다양한 비디오 트랜스포머 신경망의 공간적 편향성을 줄이고 비디오 동작 인식을 크게 향상시켰다. 마지막으로, 시각언어 트랜스포머 신경망의 조밀한 표현 이해 향상을 위한 새로운 언어 기반 자기지도 학습 방법론을 제안하여, 추가적인 이미지와 주석 없이도 사전 학습된 시각언어 트랜스포머 신경망의 이미지 분할 수행 능력을 크게 개선 하였다. 즉, 본 논문은 조밀한 자기지도 학습이 다양한 시각적 트랜스포머 신경망의 표현 수준을 개선할수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {DEE 23014
형태사항 iv, 56 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤석민
지도교수의 영문표기 : Jinwoo Shin
지도교수의 한글표기 : 신진우
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 47-56
주제 Deep learning
Visual transformer
Self-supervised learning
Dense representation learning
심층 학습
시각적 트랜스포머 신경망
자기지도 학습
조밀한 표현 학습
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서