서지주요정보
Deep learning based approaches for multimodal video question answering = 딥러닝을 활용한 멀티모달 비디오 질의응답 기법
서명 / 저자 Deep learning based approaches for multimodal video question answering = 딥러닝을 활용한 멀티모달 비디오 질의응답 기법 / Junyeong Kim.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037645

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 21041

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation considers the problem of Multimodal Video Question Answering (MVQA) which aims at joint understanding of video and accompanied subtitles to answer the given question. Compared to visual question answering (VQA) which is question answering on a single image, MVQA is challenging in two aspects: (1) it requires pinpointing the temporal parts relevant to answer the question as input is long untrimmed video, and (2) it involves reasoning on heterogeneous modality where different question requires different modality to answer the question. We propose two MVQA networks to address aforementioned challenges: (1) Progressive Attention Memory Network (PAMN), and (2) Modality Shifting Attention Network (MSAN). Experimental results on MovieQA and TVQA shows proposed PAMN and MSAN achieves significant performance improvement compared to previous state-of-the-art methods. Furthermore, we propose Structured Co-reference Graph Attention for Video-grounded Dialog (VideoDial) task and showed performance boost on AVSD benchmark.

본 논문은 비디오와 그에 포함된 자막을 보고 주어진 질문에 정답을 추론하는 멀티모달 비디오 질의응답 문제를 다룬다. 기존 많은 연구가 진행된 한장의 이미지에서 질의응답을 하는 이미지 질의 응답문제에 비해 멀티모달 비디오 질의응답은 두 가지의 어려운 점을 내포하고 있다: (1) 멀티모달 질의응답의 입력 비디오는 길고 일부분만이 질의응답과 관련되어 있기 때문에 이에 해당하는 부분을 찾는 것을 필요로 하며, (2) 각각의 질문은 서로 다른 정보를 보고 답변을 해야하기 때문에 필요한 정보를 선택해야 한다. 이러한 어려운 점을 해결하기 위해 우리는 점진적 집중 메모리 네트워크와 모달 선택 집중 네트워크를 제안하였다. 실험 결과는 MovieQA 와 TVQA 데이터셋에서 제안하는 점진적 집중 메모리 네트워크와 모달 선택 집중 네트워크가 기존의 방법도가 더 좋은 성능을 나타내고 있음을 보여준다. 또한, 비디오 질의응답에서 발전된 비디오 대화 문제를 위해 우리는 구조화된 집중 그래프 네트워크를 제안하였으며, AVSD 데이터셋에서 좋은 성능을 나타냄을 보였다.

서지기타정보

서지기타정보
청구기호 {DEE 21041
형태사항 v, 65 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김준영
지도교수의 영문표기 : Changdong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 55-61
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서