Vision Transformers (ViTs) have shown impressive results on various visual recognition tasks, alternating classic convolutional networks. While the initial ViTs treated all patches equally, recent studies reveal that incorporating inductive biases such as spatiality benefits the learned representations. However, most prior works solely focused on the location of patches, overlooking the scene structure of images. This paper aims to further guide the interaction of patches using the object information. Specifically, we propose ReMixer, which reweights the patch mixing layers of ViT based on the patch-wise object labels obtained in unsupervised or weakly-supervised manners, i.e., no additional human-annotating cost is necessary. Using the object labels, we compute a reweighting mask with a learnable scale parameter that calibrates the patch interactions, e.g., attention map of self-attention. We demonstrate that ReMixer improves ViTs over various downstream tasks, including classification, multi-object recognition, and background robustness. Finally, we show that our idea also works for MLP-Mixer and ConvMixer, implying its generic applicability to patch-based models.
비전 트랜스포머는 다양한 시각적 인식 작업에서 컨볼루션 심층 신경망을 능가하는 인상적인 결과를 보여 주었다. 초기의 비전 트랜스포머는 모든 패치를 동등하게 취급했지만, 최근 연구에 따르면 귀납적 편향을 추가해서 모델을 설계하면 학습된 표현에 이점을 더 얻을 수 있다. 그러나 대부분의 연구는 이미지의 장면 구조를 간과하고 패치의 지역성에만 초점을 맞추었다. 본 연구에서는 물체 정보를 사용하여 패치의 상호 작용을 추가로 지도하는 방법론을 제안한다. 구체적으로, 비지도 혹은 약한 지도를 통해사전 훈련된 전경 인식 모델 또는 분류 모델에서 추출한 패치별 객체 레이블을 기반으로 패치 혼합 신경층의 가중치를 재지정 하는새로운모듈을제안한다. 해당모듈은비전트랜스포머및여러믹서모델과같은다양한패치모델에 적용되어 분류 정확도와 배경 견고성과 다중 물체 인식을 일관되게 개선할 수 있다.