서지주요정보
Moment proposal network for multi-modal video question answering = 멀티 모달 질의 응답을 위한 모멘트 제안 네트워크
서명 / 저자 Moment proposal network for multi-modal video question answering = 멀티 모달 질의 응답을 위한 모멘트 제안 네트워크 / Minuk Ma.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036047

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20033

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper proposes Moment Proposal Network (MPN) for Multimodal Video Question Answering (MMVQA). MMVQA requires the understanding of the story of TV shows based on the video and conversation to answer the given question. Existing methods rely on temporal attention mechanisms to retrieve the relevant moment to the current QA. However, there are two main limitations. One is that the attention map tends to be blurred as the video length is increased which hinders pinpointing the required moment. Another is that the contribution of each modality is not considered. To this end, Moment Proposal Network (MPN) is proposed to retrieve the golden moment by a hard attention mechanism which reduces the search space for the subsequent reasoning networks. In addition, MPN can dynamically determine the importance of each modality for the given question by Modality Importance Modulation. MPN is trained to solve a ranking problem between the query and the candidate moment proposals. The experiments on publicly available dataset TVQA show that MPN achieves state-of-the-art performance and provides interpretability of where to attend.

본 논문에서는 멀티 모달 질의 응답을 위한 모멘트 제안 네트워크를 제안하였다. 멀티 모달 질의 응답에서는 주어진 질의에 답하기 위해 비디오와 대화에 기반하여 TV의 내용을 이해해야 한다. 현재 방법들은 주어진 질의-응답과 관련 있는 장면을 추출하기 위해 시간 집중 방법에 의존하고 있다. 그러나, 이에는 두 가지 주요 한계가 존재한다. 첫째는 비디오의 길이가 길어짐에 따라 집중 지도가 흐릿해지는 경향이 있어 필요한 장면을 집어내는 것을 방해한다는 점이다. 둘째는 각 모달리티의 중요도가 고려되지 않았다는 점이다. 따라서, 추론 네트워크를 위한 탐색 공간을 줄이는 강한 집중 방법을 통해 필요 장면을 추출하는 모멘트 제안 네트워크를 제안한다. 추가적으로, 모멘트 제안 네트워크는 모달리티 중요도 조정을 통해 질의에 대해 각 모달리티의 중요도를 동적으로 결정할 수 있다. 모멘트 제안 네트워크는 질의와 후보 장면들 간의 랭킹 문제를 풀도록 학습된다. 본 방법은 공개 데이터 셋 TVQA에 대한 실험에서 모멘트 제안 네트워크는 최고 수준의 성능을 보여주었으며, 어디를 집중할 지에 대한 해석 가능성도 제공한다.

서지기타정보

서지기타정보
청구기호 {MEE 20033
형태사항 v, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 마민욱
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 21-24
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서