서지주요정보
Enhancing flexibility and adaptability of bayesian prompt learning in vision-language pretrained model = 비전-언어 사전 훈련 모델에서 베이지안 프롬프트 학습의 유연성 및 적응성 향상
서명 / 저자 Enhancing flexibility and adaptability of bayesian prompt learning in vision-language pretrained model = 비전-언어 사전 훈련 모델에서 베이지안 프롬프트 학습의 유연성 및 적응성 향상 / Youngjae Cho.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042020

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MIE 24013

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent vision-language pre-trained (VLP) models have become the backbone for many downstream tasks, but they are utilized as frozen model without learning. Prompt learning is a method to improve the pre-trained VLP model by adding a learnable context vector to the inputs of the text encoder. In a few-shot learning scenario of the downstream task, MLE training can lead the context vector to over-fit dominant image features in the training data. This overfitting can potentially harm the generalization ability, especially in the presence of a distribution shift between the training and test dataset. This paper presents a Bayesian-based framework of prompt learning, which could alleviate the over-fitting issues on few-shot learning application and increase the adaptability of prompts on unseen instances. Specifically, modeling data-dependent prior enhances the adaptability of text features for both seen and unseen image features without the trade-off of performance between them. Based on the Bayesian framework, we utilize the Wasserstein Gradient Flow in the estimation of our target posterior distribution, which enables our prompt to be flexible in capturing the complex modes of image features. We demonstrate the effectiveness of our method on benchmark datasets for several experiments by showing statistically significant improvements on performance compared to existing methods

최근의 시각-언어 사전 훈련 모델은 다양한 하위 작업의 기반이 되어왔지만 학습 없이 동결된 모델로 사용되고 있는 상황이다. 프롬프트 학습은 텍스트 인코더의 입력에 학습 가능한 컨텍스트 벡터를 추가하여 시각-언어 사전 훈련 모델을 개선하는 방법이다. 하위 작업의 퓨샷 학습 시나리오에서 최대 가능도 훈련은 컨텍스트 벡터를 훈련 데이터의 지배적인 이미지 특징에 오버피팅시킬 수 있다. 이 오버피팅은 특히 훈련 데이터와 테스트 데이터 간의 분포 이동이 존재하는 경우에 일반화 능력을 훼손할 수 있다. 본 논문은 프롬프트 튜닝의 베이지안 기반 프레임워크를 제안하여 이러한 퓨샷 학습 응용에서의 오버피팅 문제를 완화하고 프롬프트의 미지의 인스턴스에 대한 적응성을 높일 수 있다. 특히 데이터 종속적 사전 모델링은 보이는 이미지 특징과 보이지 않는 이미지 특징 모두에 대한 텍스트 특징의 적응성을 향상시킨다. 베이지안 프레임워크를 기반으로 목표 사후 분포를 추정할 때 우리는 와서스타인 그레디언트 흐름을 활용하여 프롬프트가 이미지 특징의 복잡한 모드를 캡처하는 데 유연성을 부여한다. 몇 가지 실험에서 우리의 방법의 효과를 벤치마크 데이터셋에서 보여 기존 방법과 비교해 통계적으로 유의한 성능 향상을 입증했다

서지기타정보

서지기타정보
청구기호 {MIE 24013
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조영재
지도교수의 영문표기 : Il-Chul Moon
지도교수의 한글표기 : 문일철
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 19-21
주제 Prompt
Bayesian inference
Wasserstein gradient flow
Multi-modal
프롬프트
베이지안
사후분포
멀티 모달
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서