This dissertation considers Video Corpus Moment Retrieval(VCMR) and Video Grounded Dialogue System(VGDS). VCMR is to localize temporal moment in a corpus of videos that best corresponds to the given text query. VGDS is to answer the question with video and a series of questions and answers related to the content of the video. Despite several previous works, these tasks have some limitations : (1) VCMR is performed mainly in a supervised manner; (2) In VCMR, lack of associating among features obtained from various multimodal inputs sharing common semantics; (3) VGDSs answer the question based on linguistic correlation instead of video content. For solving these limitations, we propose (1) Weakly-supervised Moment Retrieval Network performs VCMR in a weakly-supervised manner, (2) Semantic Association Network for VCMR associates common semantics within the same modality and across the different modalities, and (3) Counterfactual Object Replacement for VGDS generates counterfactual augmented training samples. Our proposed networks and method show better performance than previous networks and methods, and several analyzes show the results of solving the problems.
본 논문은 시각 언어 타스크에서의 비디오 그룹 내 순간 검색 기법, 비디오 기반의 대화 기법을 다룬다. 비디오 그룹 내 순간 검색 기법은 특정 장면에 대한 묘사가 주어졌을 때, 여러개의 비디오를 포함한 그룹에서 해당 장면이 있는 비디오와 해당하는 시간을 찾는 기법이며, 비디오 기반의 대화 기법은 비디오와, 비디오의 내용과 관련된 연속된 질의 응답을 이용하여, 질문에 대한 답을 내는 기법이다. 두 기법에 대해 기존의 많은 연구가 진행되었지만, 몇가지 문제점을 내포하고 있다. (1) 비디오 그룹 내 순간 검색 기법은 지도 학습 기법으로 학습이 되어 왔다. (2) 비디오 그룹 내 순간 검색 기법에서 모달리티간의 의미적으로 유사한 것들간의 연관을 짓지 못하고 있다. (3) 비디오 그룹 내 대화 기법에서는 비디오 내용이 아닌 언어적상관관계에 의해 답을 만든다. 이러한 문제를 해결하기 위해 (1) 약지도 학습 기반의 비디오 그룹 내 순간 검색 네트워크, (2) 비디오 그룹 검색을 위한 의미 연관 네트워크, (3) 비디오 기반의 대화 기법을 위한 반사실 객체 대체 방법을 제안한다. 각 네트워크, 및 방법은 각 기법의 벤치마크 데이터 셋에서 기존의 연구들 보다 더 좋은 성능을 나타내고 있으며, 여러 분석들은 본 논문을 통해 문제점이 해결된 결과를 보여준다.