서지주요정보
Zero-shot dense video captioning by jointly optimizing text and moment = 문장과 시점의 동시 최적화를 통한 제로샷 고밀도 캡션 생성
서명 / 저자 Zero-shot dense video captioning by jointly optimizing text and moment = 문장과 시점의 동시 최적화를 통한 제로샷 고밀도 캡션 생성 / Yongrae Jo.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041164

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23047

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Dense video captioning, a task of localizing meaningful moments and generating relevant captions for videos, often requires a large, expensive corpus of annotated video segments paired with text. In an effort to minimize the annotation cost, we propose ZeroTA, a novel method for dense video captioning in a zero-shot manner. Our method does not require any videos or annotations for training; instead, it localizes and describes events within each input video at test time by optimizing solely on the input. This is accomplished by introducing a soft moment mask that represents a temporal segment in the video and jointly optimizing it with the prefix parameters of a language model. This joint optimization aligns a frozen language generation model (i.e., GPT-2) with a frozen vision-language contrastive model (i.e., CLIP) by maximizing the matching score between the generated text and a moment within the video. We also introduce a pairwise temporal IoU loss to let a set of soft moment masks capture multiple distinct events within the video. Our method effectively discovers diverse significant events within the video, with the resulting captions appropriately describing these events. The empirical results demonstrate that ZeroTA surpasses zero-shot baselines and even outperforms the state-of-the-art few-shot method on the widely-used benchmark ActivityNet Captions. Moreover, our method shows greater robustness compared to supervised methods when evaluated in out-of-domain scenarios. This research provides insight into the potential of aligning widely-used models, such as language generation models and vision-language models, to unlock a new capability—understanding temporal aspects of videos.

고밀도 비디오 캡션 작업은 비디오에서 의미 있는 시점을 찾아내고 연관된 캡션을 생성하는 것으로, 일반적으로 고비용의 주석이 달린 비디오 세그먼트 데이터가 대량으로 필요하다. 주석 비용을 최소화하기 위해, 본 연구에서는 제로샷 방식으로 고밀도 비디오 캡션을 수행하는 새로운 방법인 ZeroTA를 제안한다. 해당 방법은 모델 학습을 위해 어떤 비디오나 주석을 필요로 하지 않으며, 대신 인퍼런스 시간에 입력 비디오에 대해 모델 파라미터를 최적화하여 비디오 내 이벤트를 찾아내고 캡션을 생성한다. 이를 가능하게 하기 위해 우리는 비디오 내에서 시간 세그먼트를 나타내는 시점 마스크를 도입하고 언어 모델의 파라미터와 함께 시점 마스크를 동시에 최적화하였다. 이 동시 최적화는 생성된 텍스트와 비디오 내의 시점 간 매칭 점수를 최대화함으로써 언어 생성 모델(예: GPT-2)과 비전-언어 대비 모델(예: CLIP)을 정렬한다. 또한, 본 연구에서는 비디오 내에서 여러 개의 독립된 이벤트를 포착하기 위해 쌍별 시간 IoU 손실 함수를 도입한다. 이를 통해 우리가 제안한 방법은 비디오 내에서 다양한 중요한 이벤트를 효과적으로 발견하며, 생성된 캡션은 이벤트를 적절하게 설명한다. 실험 결과는 ZeroTA가 제로샷 베이스라인보다 높은 성능을 달성하며, 널리 사용되는 벤치마크인 ActivityNet Captions에서 최첨단의 퓨-샷 방법보다 우수한 성능을 낸다는 것을 보여준다. 게다가, 평가 데이터의 도메인이 학습 도메인과 달라질 때 우리가 제안한 방법은 지도 학습 방법과 비교하여 더 뛰어난 강건성을 보인다. 궁극적으로, 본 연구는 언어 생성 모델 및 비전-언어 모델 등 널리 사용되는 모델을 정렬시킴으로써 비디오의 시간적 측면을 이해는 것과 같이 새로운 능력을 개발할 수 있다는 가능성을 보여준다.

서지기타정보

서지기타정보
청구기호 {MAI 23047
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조용래
지도교수의 영문표기 : Minjoon Seo
지도교수의 한글표기 : 서민준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 16-19
주제 Dense video captioning
Zero-shot
Multi-modal
Language generation models
Vision-language models
고밀도 비디오 캡션 생성
제로샷
멀티 모달
언어 생성 모델
비전 언어 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서