서지주요정보
ReMixer : object-aware mixing layer for vision transformers = 비전 트랜스포머를 위한 물체 인식 기반 패치 혼합 신경층
서명 / 저자 ReMixer : object-aware mixing layer for vision transformers = 비전 트랜스포머를 위한 물체 인식 기반 패치 혼합 신경층 / Hyunwoo Kang.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039896

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22165

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Vision Transformers (ViTs) have shown impressive results on various visual recognition tasks, alternating classic convolutional networks. While the initial ViTs treated all patches equally, recent studies reveal that incorporating inductive biases such as spatiality benefits the learned representations. However, most prior works solely focused on the location of patches, overlooking the scene structure of images. This paper aims to further guide the interaction of patches using the object information. Specifically, we propose ReMixer, which reweights the patch mixing layers of ViT based on the patch-wise object labels obtained in unsupervised or weakly-supervised manners, i.e., no additional human-annotating cost is necessary. Using the object labels, we compute a reweighting mask with a learnable scale parameter that calibrates the patch interactions, e.g., attention map of self-attention. We demonstrate that ReMixer improves ViTs over various downstream tasks, including classification, multi-object recognition, and background robustness. Finally, we show that our idea also works for MLP-Mixer and ConvMixer, implying its generic applicability to patch-based models.

비전 트랜스포머는 다양한 시각적 인식 작업에서 컨볼루션 심층 신경망을 능가하는 인상적인 결과를 보여 주었다. 초기의 비전 트랜스포머는 모든 패치를 동등하게 취급했지만, 최근 연구에 따르면 귀납적 편향을 추가해서 모델을 설계하면 학습된 표현에 이점을 더 얻을 수 있다. 그러나 대부분의 연구는 이미지의 장면 구조를 간과하고 패치의 지역성에만 초점을 맞추었다. 본 연구에서는 물체 정보를 사용하여 패치의 상호 작용을 추가로 지도하는 방법론을 제안한다. 구체적으로, 비지도 혹은 약한 지도를 통해사전 훈련된 전경 인식 모델 또는 분류 모델에서 추출한 패치별 객체 레이블을 기반으로 패치 혼합 신경층의 가중치를 재지정 하는새로운모듈을제안한다. 해당모듈은비전트랜스포머및여러믹서모델과같은다양한패치모델에 적용되어 분류 정확도와 배경 견고성과 다중 물체 인식을 일관되게 개선할 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 22165
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강현우
지도교수의 영문표기 : Jinwoo Shin
지도교수의 한글표기 : 신진우
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 16-21
주제 Object-centric
Inductive bias
Vision transformers
Patch-based models
물체 인식 기반
귀납적 편향
비전 트랜스포머
패치 기반 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서