서지주요정보
Deep learning based approach for video corpus moment retrieval and video grounded dialogue = 비디오 그룹 내 순간 검색 기법 및 비디오 기반의 대화 기법에서의 딥러닝을 활용한 접근법
서명 / 저자 Deep learning based approach for video corpus moment retrieval and video grounded dialogue = 비디오 그룹 내 순간 검색 기법 및 비디오 기반의 대화 기법에서의 딥러닝을 활용한 접근법 / Dahyun Kim.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038764

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22019

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation considers Video Corpus Moment Retrieval(VCMR) and Video Grounded Dialogue System(VGDS). VCMR is to localize temporal moment in a corpus of videos that best corresponds to the given text query. VGDS is to answer the question with video and a series of questions and answers related to the content of the video. Despite several previous works, these tasks have some limitations : (1) VCMR is performed mainly in a supervised manner; (2) In VCMR, lack of associating among features obtained from various multimodal inputs sharing common semantics; (3) VGDSs answer the question based on linguistic correlation instead of video content. For solving these limitations, we propose (1) Weakly-supervised Moment Retrieval Network performs VCMR in a weakly-supervised manner, (2) Semantic Association Network for VCMR associates common semantics within the same modality and across the different modalities, and (3) Counterfactual Object Replacement for VGDS generates counterfactual augmented training samples. Our proposed networks and method show better performance than previous networks and methods, and several analyzes show the results of solving the problems.

본 논문은 시각 언어 타스크에서의 비디오 그룹 내 순간 검색 기법, 비디오 기반의 대화 기법을 다룬다. 비디오 그룹 내 순간 검색 기법은 특정 장면에 대한 묘사가 주어졌을 때, 여러개의 비디오를 포함한 그룹에서 해당 장면이 있는 비디오와 해당하는 시간을 찾는 기법이며, 비디오 기반의 대화 기법은 비디오와, 비디오의 내용과 관련된 연속된 질의 응답을 이용하여, 질문에 대한 답을 내는 기법이다. 두 기법에 대해 기존의 많은 연구가 진행되었지만, 몇가지 문제점을 내포하고 있다. (1) 비디오 그룹 내 순간 검색 기법은 지도 학습 기법으로 학습이 되어 왔다. (2) 비디오 그룹 내 순간 검색 기법에서 모달리티간의 의미적으로 유사한 것들간의 연관을 짓지 못하고 있다. (3) 비디오 그룹 내 대화 기법에서는 비디오 내용이 아닌 언어적상관관계에 의해 답을 만든다. 이러한 문제를 해결하기 위해 (1) 약지도 학습 기반의 비디오 그룹 내 순간 검색 네트워크, (2) 비디오 그룹 검색을 위한 의미 연관 네트워크, (3) 비디오 기반의 대화 기법을 위한 반사실 객체 대체 방법을 제안한다. 각 네트워크, 및 방법은 각 기법의 벤치마크 데이터 셋에서 기존의 연구들 보다 더 좋은 성능을 나타내고 있으며, 여러 분석들은 본 논문을 통해 문제점이 해결된 결과를 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 22019
형태사항 iv, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김다현
지도교수의 영문표기 : Changdong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 26-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서