This paper proposes Moment Proposal Network (MPN) for Multimodal Video Question Answering (MMVQA). MMVQA requires the understanding of the story of TV shows based on the video and conversation to answer the given question. Existing methods rely on temporal attention mechanisms to retrieve the relevant moment to the current QA. However, there are two main limitations. One is that the attention map tends to be blurred as the video length is increased which hinders pinpointing the required moment. Another is that the contribution of each modality is not considered. To this end, Moment Proposal Network (MPN) is proposed to retrieve the golden moment by a hard attention mechanism which reduces the search space for the subsequent reasoning networks. In addition, MPN can dynamically determine the importance of each modality for the given question by Modality Importance Modulation. MPN is trained to solve a ranking problem between the query and the candidate moment proposals. The experiments on publicly available dataset TVQA show that MPN achieves state-of-the-art performance and provides interpretability of where to attend.
본 논문에서는 멀티 모달 질의 응답을 위한 모멘트 제안 네트워크를 제안하였다. 멀티 모달 질의 응답에서는 주어진 질의에 답하기 위해 비디오와 대화에 기반하여 TV의 내용을 이해해야 한다. 현재 방법들은 주어진 질의-응답과 관련 있는 장면을 추출하기 위해 시간 집중 방법에 의존하고 있다. 그러나, 이에는 두 가지 주요 한계가 존재한다. 첫째는 비디오의 길이가 길어짐에 따라 집중 지도가 흐릿해지는 경향이 있어 필요한 장면을 집어내는 것을 방해한다는 점이다. 둘째는 각 모달리티의 중요도가 고려되지 않았다는 점이다. 따라서, 추론 네트워크를 위한 탐색 공간을 줄이는 강한 집중 방법을 통해 필요 장면을 추출하는 모멘트 제안 네트워크를 제안한다. 추가적으로, 모멘트 제안 네트워크는 모달리티 중요도 조정을 통해 질의에 대해 각 모달리티의 중요도를 동적으로 결정할 수 있다. 모멘트 제안 네트워크는 질의와 후보 장면들 간의 랭킹 문제를 풀도록 학습된다. 본 방법은 공개 데이터 셋 TVQA에 대한 실험에서 모멘트 제안 네트워크는 최고 수준의 성능을 보여주었으며, 어디를 집중할 지에 대한 해석 가능성도 제공한다.