For cross-modal retrieval tasks, building a joint representation space for data samples from different modalities has been a common practice especially from the vision and language domains. The two characteristics of image and caption pairs that make this task especially challenging are the multiplicity of matches and partiality of matching pairs. Given an image or a caption, there are multiple positive captions or images and for each positive image-caption pair, the captions convey only the key concepts at interest while ignoring other components. Previous researches, which are based on learning pointwise embeddings in a deterministic way, fail to capture this one-to-many correspondences nor correctly calibrate the semantic intersection between arbitrary image-caption pairs. This paper proposes a generalized method of learning the representations of images and captions as probabilistic distributions in the joint representation space and explicitly model cross-modal uncertainty with differential entropy. The probabilistic embeddings are parametrically learned by fusing a visual, text head module to a pretrained visual text encoder and trained in a two-staged manner. Through extensive qualitative experiments on MS-COCO and Flickr30K datasets, the paper demonstrates the benefit of using probabilistic representations by showing how cross-modal uncertainty can measure the multiplicity within each sample and how density-wise similarity preserves the partial similarity of each image-caption pair.
이미지-텍스트 도메인에서의 크로스모달 검색을 수행하기 위해, 관행적으로 다른 모덜리티의 데이터 샘플들을 나타낼 수 있는 통합된 표현공간을 구성한다. 하지만 비전-자연어 데이터 쌍 간의 크로스모달 검색을 어렵게 만드는 두 가지 요인은 한 이미지(텍스트)에 다수의 텍스트(이미지) 샘플들이 매칭될 수 있는 다중 매칭 문제와 매칭된 샘플들이 부분적으로만 의미를 공유하는 의미론적 부분성에 있다. 결정론적 방법으로 샘플들의 점별 임베딩을 학습한 과거 연구들은 점 간 거리에 기반하여 유사도를 측정하기에, 일대다수의 매칭의 가능성을 상정하지 않는다는 점과 임의의 두 샘플 간 의미론적 교집합을 가늠하지 못한다는 점에서 앞선 두 문제들을 해결하지 못한다는 한계를 지닌다. 본 연구에서는 이미지-텍스트의 임베딩을 확률분포로 학습하고 미분 엔트로피에 기반해 모덜리티 간 불확실성을 모델링하는 일반화된 방법론을 제안한다. 분포 간 거리를 유사도로 사용하는 기존 방법론이 기존 연구보다 의미론적 유사도를 잘 측정함으로써 다중 매칭 문제 및 의미론적 부분성을 반영하며, 샘플의 불확실성 또한 크로스모덜 검색의 측면에서 매칭의 확실성을 나타내는 지표로 활용할 수 있음을 정성적/정량적 비교 분석을 통해 확인한다.