This dissertation considers the problem of Multimodal Video Question Answering (MVQA) which aims at joint understanding of video and accompanied subtitles to answer the given question. Compared to visual question answering (VQA) which is question answering on a single image, MVQA is challenging in two aspects: (1) it requires pinpointing the temporal parts relevant to answer the question as input is long untrimmed video, and (2) it involves reasoning on heterogeneous modality where different question requires different modality to answer the question. We propose two MVQA networks to address aforementioned challenges: (1) Progressive Attention Memory Network (PAMN), and (2) Modality Shifting Attention Network (MSAN). Experimental results on MovieQA and TVQA shows proposed PAMN and MSAN achieves significant performance improvement compared to previous state-of-the-art methods. Furthermore, we propose Structured Co-reference Graph Attention for Video-grounded Dialog (VideoDial) task and showed performance boost on AVSD benchmark.
본 논문은 비디오와 그에 포함된 자막을 보고 주어진 질문에 정답을 추론하는 멀티모달 비디오 질의응답 문제를 다룬다. 기존 많은 연구가 진행된 한장의 이미지에서 질의응답을 하는 이미지 질의 응답문제에 비해 멀티모달 비디오 질의응답은 두 가지의 어려운 점을 내포하고 있다: (1) 멀티모달 질의응답의 입력 비디오는 길고 일부분만이 질의응답과 관련되어 있기 때문에 이에 해당하는 부분을 찾는 것을 필요로 하며, (2) 각각의 질문은 서로 다른 정보를 보고 답변을 해야하기 때문에 필요한 정보를 선택해야 한다. 이러한 어려운 점을 해결하기 위해 우리는 점진적 집중 메모리 네트워크와 모달 선택 집중 네트워크를 제안하였다. 실험 결과는 MovieQA 와 TVQA 데이터셋에서 제안하는 점진적 집중 메모리 네트워크와 모달 선택 집중 네트워크가 기존의 방법도가 더 좋은 성능을 나타내고 있음을 보여준다. 또한, 비디오 질의응답에서 발전된 비디오 대화 문제를 위해 우리는 구조화된 집중 그래프 네트워크를 제안하였으며, AVSD 데이터셋에서 좋은 성능을 나타냄을 보였다.