서지주요정보
Video-language alignment network for weakly-supervised video moment retrieval = 약 지도 학습기반 비디오 순간검색을 위한 비디오 언어 정렬 네트워크
서명 / 저자 Video-language alignment network for weakly-supervised video moment retrieval = 약 지도 학습기반 비디오 순간검색을 위한 비디오 언어 정렬 네트워크 / Sunjae Yoon.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037243

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21107

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Video Moment Retrieval (VMR) is a task to localize the temporal moment in untrimmed video specified by natural language query. For VMR, several methods that require full supervision for training have been proposed. Unfortunately, acquiring a large number of training videos with labeled temporal boundaries for each query is a labor-intensive process. This paper explores a method for performing VMR in a weakly-supervised manner (wVMR): training is performed without temporal moment labels but only with the text query that describes a segment of the video. Existing methods on wVMR generate multi-scale proposals and apply query-guided attention mechanism to highlight the most relevant proposal. To leverage the weak supervision, contrastive learning is used which predicts higher scores for the correct video-query pairs than for the incorrect pairs. It has been observed that a large number of candidate proposals, coarse query representation, and one-way attention mechanism lead to blurry attention map which limits the localization performance. To address this issue, Video-Language Alignment Network (VLANet) is proposed that learns a sharper attention by pruning out spurious candidate proposals and applying a multi-directional attention mechanism with fine-grained query representation. The Surrogate Proposal Selection module selects a proposal based on the proximity to the query in the joint embedding space, and thus substantially reduces candidate proposals which leads to lower computation load and sharper attention. Next, the Cascaded Cross-modal Attention module considers dense feature interactions and multi-directional attention flows to learn the multi-modal alignment. VLANet is trained end-to-end using contrastive loss which enforces semantically similar videos and queries to cluster.

비디오 순간검색은 자연어 문장이 설명하는 내용에 해당하는 순간을 비디오 내에서 찾아내는 작업이다. 최근, 비디오 순간검색을 위해서 여러 완전지도 학습기반의 방법이 제안되었다. 하지만 이러한 시도들은 학습을 위해 비디오 내에서 주어진 문장에 맞는 순간을 레이블 해야하는 노동집약적인 과정을 필요로 했다. 따라서 본 논문은 약 지도 학습기반의 비디오 순간검색 방법을 제안하고자 한다. 약 지도 학습기반의 비디오 순간검색은 학습 시 비디오내의 순간에 대한 레이블을 필요로 하지 않으며 오직 주어진 문장과 비디오만을 입력으로 하여 문장에 해당하는 순간을 검색하게 된다. 이러한 약 지도 학습은 주어진 비디오와 잘못된 문장의 쌍보다 비디오와 올바른 문장의 쌍에 대해 더 높은 점수를 주도록하는 대조 학습을 통해 진행되어진다. 이전의 약 지도 학습기반 비디오 순간검색 방법들은 여러 길이의 비디오 순간 후보들을 셍성하고 주어진 문장과 가장 관련성이 높은 후보를 선택하여 순간검색을 진행하였다. 하지만 많은 비디오 순간 후보들의 생성, 조악한 문장 표현 그리고 단 방향의 어텐션 메커니즘은 비디오 순간검색을 위한 어텐션 지도를 흐릿하게 만드는 것을 관측했다. 본 논문은 이러한 문제를 해결하기 위해 잘못된 비디오 순간 후보들을 초기에 제거하면서 세밀한 문장 표현을 통해 다방향 어텐션 방법을 할 수 있는 비디오 언어 정렬 네트워크를 제안한다. 이를 위해 대표 후보 선출 모듈은 문장과 비디오의 공동 임베딩 공간상에서 문장과 가장 근접한 비디오 순간 후보를 선택하여 많은 순간 후보들로 인한 불 필요한 계산을 줄이며 더욱 예리안 어텐션을 만들게 된다. 다음으로 모달리티간의 연속적인 어텐션 모듈은 비디오와 문장의 특징들 사이의 짙은 상호작용을 유도하며 모달리티간 시간적 정렬을 위해 양방향으로 어텐션이 흐르게 한다. 제안 하는 비디오 언어 정렬 네트워크는 의미적으로 비슷한 비디오와 문장이 서로 군집되도록 하는 대조 손실값을 이용하여 엔드 투 엔드 학습을 진행한다.

서지기타정보

서지기타정보
청구기호 {MEE 21107
형태사항 iv, 21 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤선재
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
수록잡지명 : "Video-Language Alignment Network for Weakly-Supervised Video Moment Retrieval". Computer Vision - ECCV 2020, pp.156-171(2020)
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 16-18
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서