서지주요정보
Probabilistic representation learning for improved cross-modal retrieval using density-wise similarity = 분포간 유사도 기반 확률적 표현학습을 통한 크로스모달 검색 개선
서명 / 저자 Probabilistic representation learning for improved cross-modal retrieval using density-wise similarity = 분포간 유사도 기반 확률적 표현학습을 통한 크로스모달 검색 개선 / Yeo Dong Youn.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041181

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23064

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For cross-modal retrieval tasks, building a joint representation space for data samples from different modalities has been a common practice especially from the vision and language domains. The two characteristics of image and caption pairs that make this task especially challenging are the multiplicity of matches and partiality of matching pairs. Given an image or a caption, there are multiple positive captions or images and for each positive image-caption pair, the captions convey only the key concepts at interest while ignoring other components. Previous researches, which are based on learning pointwise embeddings in a deterministic way, fail to capture this one-to-many correspondences nor correctly calibrate the semantic intersection between arbitrary image-caption pairs. This paper proposes a generalized method of learning the representations of images and captions as probabilistic distributions in the joint representation space and explicitly model cross-modal uncertainty with differential entropy. The probabilistic embeddings are parametrically learned by fusing a visual, text head module to a pretrained visual text encoder and trained in a two-staged manner. Through extensive qualitative experiments on MS-COCO and Flickr30K datasets, the paper demonstrates the benefit of using probabilistic representations by showing how cross-modal uncertainty can measure the multiplicity within each sample and how density-wise similarity preserves the partial similarity of each image-caption pair.

이미지-텍스트 도메인에서의 크로스모달 검색을 수행하기 위해, 관행적으로 다른 모덜리티의 데이터 샘플들을 나타낼 수 있는 통합된 표현공간을 구성한다. 하지만 비전-자연어 데이터 쌍 간의 크로스모달 검색을 어렵게 만드는 두 가지 요인은 한 이미지(텍스트)에 다수의 텍스트(이미지) 샘플들이 매칭될 수 있는 다중 매칭 문제와 매칭된 샘플들이 부분적으로만 의미를 공유하는 의미론적 부분성에 있다. 결정론적 방법으로 샘플들의 점별 임베딩을 학습한 과거 연구들은 점 간 거리에 기반하여 유사도를 측정하기에, 일대다수의 매칭의 가능성을 상정하지 않는다는 점과 임의의 두 샘플 간 의미론적 교집합을 가늠하지 못한다는 점에서 앞선 두 문제들을 해결하지 못한다는 한계를 지닌다. 본 연구에서는 이미지-텍스트의 임베딩을 확률분포로 학습하고 미분 엔트로피에 기반해 모덜리티 간 불확실성을 모델링하는 일반화된 방법론을 제안한다. 분포 간 거리를 유사도로 사용하는 기존 방법론이 기존 연구보다 의미론적 유사도를 잘 측정함으로써 다중 매칭 문제 및 의미론적 부분성을 반영하며, 샘플의 불확실성 또한 크로스모덜 검색의 측면에서 매칭의 확실성을 나타내는 지표로 활용할 수 있음을 정성적/정량적 비교 분석을 통해 확인한다.

서지기타정보

서지기타정보
청구기호 {MAI 23064
형태사항 iii, 25 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤여동
지도교수의 영문표기 : Ilchul Moon
지도교수의 한글표기 : 문일철
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 22-24
주제 Cross-modal retrieval
Multiplicity of matches
Partiality of matching pairs
Point-wise/distributionwise embedding
Cross-modal uncertainty
크로스모달 검색
다중 매칭 문제
의미론적 부분성
점/확률분포 임베딩
불확실성
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서