Contrastive language-image pre-training (CLIP) has demonstrated remarkable zero-shot classification ability, namely image classification using novel text labels. Existing works have attempted to enhance CLIP by fine-tuning on downstream tasks, but these have inadvertently led to performance degradation on unseen classes, thus harming zero-shot generalization. This paper aims to address this challenge by leveraging readily available image-text pairs from an external dataset for cross-modal guidance during inference. To this end, we propose X-MoRe, a novel inference method comprising two key steps: (1) cross-modal retrieval and (2) modal-confidence-based ensemble. Given a query image, we harness the power of CLIP's cross-modal representations to retrieve relevant textual information from an external image-text pair dataset. Then, we assign higher weights to the more reliable modality between the original query image and retrieved text, contributing to the final prediction. X-MoRe demonstrates robust performance across a diverse set of tasks without the need for additional training, showcasing the effectiveness of utilizing cross-modal features to maximize CLIP's zero-shot ability.
CLIP(Contrastive Language-Image Pre-training)은 놀라운 제로샷 분류 능력, 즉 새로운 텍스트 레이블을 사용한 이미지 분류 기능을 보여주었습니다. 기존 작업에서는 다운스트림 작업을 미세 조정하여 CLIP을 향상시키려고 시도했지만, 이는 의도치 않게 보이지 않는 클래스의 성능 저하로 이어져 제로샷 일반화에 해를 끼쳤습니다. 이 문서는 교차 모드 지침 \textit{추론 중}을 위해 외부 데이터 세트에서 쉽게 사용할 수 있는 이미지-텍스트 쌍을 활용하여 이러한 문제를 해결하는 것을 목표로 합니다. 이를 위해 우리는 (1) 교차 모달 검색과 (2) 모달 신뢰 기반 앙상블의 두 가지 핵심 단계로 구성된 새로운 추론 방법인 X-MoRe를 제안합니다. 쿼리 이미지가 주어지면 CLIP의 교차 모달 표현 기능을 활용하여 외부 이미지-텍스트 쌍 데이터 세트에서 관련 텍스트 정보를 검색합니다. 그런 다음 원본 쿼리 이미지와 검색된 텍스트 사이의 보다 신뢰할 수 있는 양식에 더 높은 가중치를 할당하여 최종 예측에 기여합니다. X-MoRe는 추가 교육 없이 다양한 작업에서 강력한 성능을 보여주며, CLIP의 제로샷 기능을 극대화하기 위해 교차 모드 기능을 활용하는 효과를 보여줍니다