서지주요정보
Bayesian multi-task transfer learning for soft prompt tuning = 소프트 프롬프트 튜닝을 위한 베이지안 멀티태스크 전이학습
서명 / 저자 Bayesian multi-task transfer learning for soft prompt tuning = 소프트 프롬프트 튜닝을 위한 베이지안 멀티태스크 전이학습 / Haeju Lee.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041148

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23031

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Prompt tuning, in which prompts are optimized to adapt large-scale pre-trained language models to downstream tasks instead of fine-tuning the full model parameters, has been shown to be particularly effective when the prompts are trained in the multi-task transfer learning setting. These methods generally involve individually training prompts for each source task and then aggregating them to provide the initialization of the prompt for the target task. However, this approach critically ignores the fact that some of the source tasks could be negatively or positively interfering with each other. We argue that when we extract knowledge from source tasks via training source prompts, we need to consider this correlation among source tasks for better transfer to target tasks. To this end, we propose a Bayesian approach where we work with the posterior distribution of prompts across source tasks. We obtain representative source prompts corresponding to the samples from the posterior utilizing Stein Variational Gradient Descent, which are then aggregated to constitute the initial target prompt. We show extensive experimental results on the standard benchmark NLP tasks, where our Bayesian multi-task transfer learning approach outperforms the state-of-the-art methods in many settings. Furthermore, our approach requires no auxiliary models other than the prompt itself, achieving high degree of parameter-efficiency.

프롬프트 튜닝은, 대규모 언어모델의 전체 파라미터를 학습하는 대신 프롬프트를 학습해 대규모 언어모델이 주어진 태스크를 풀 수 있도록 하는 방식이며, 특히 멀티-태스크 전이학습 상황에서 효과적임이 입증되었다. 기존의 멀티-태스크 프롬프트 전이학습 방법들의 경우 각 소스 태스크마다 개별적으로 프롬프트를 학습시킨 후 이들을 조합하여 타겟 태스크의 프롬프트를 초기화한다. 하지만 이러한 방법들은 소스 태스크들 사이의 부정적 혹은 긍정적 관계를 무시하게 된다. 본 연구는 소스 태스크를 학습할 때, 소스 태스크들간의 상관관계 또한 고려해야 함을 주장하며, 따라서 소스 태스크들의 데이터가 주어졌을때 프롬프트의 사후확률분포를 다루는 베이지안 전이학습 방법을 제안한다. 본 연구의 방법은 Stein Variational Gradient Descent를 활용해 해당 사후확률분포로부터 샘플한 프롬프트들을 얻고, 이들을 조합하여 타겟 태스크의 프롬프트를 초기화한다. 자연어처리 분야의 표준 벤치마크들을 이용한 실험에서, 본 연구의 방법은 다른 최신 방법들보다 더 높은 성능을 보인다. 또한, 본 연구의 방법은 프롬프트 이외의 다른 모델의 학습을 요구하지 않기 때문에, 높은 수준의 parameter-efficiency를 달성한다.

서지기타정보

서지기타정보
청구기호 {MAI 23031
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이해주
지도교수의 영문표기 : Kee-Eung Kim
지도교수의 한글표기 : 김기응
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 14-19
주제 Prompt tuning
Transfer learning
Bayesian method
프롬프트 튜닝
전이학습
베이지안
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서