서지주요정보
Exploring the effects of non-local blocks on video captioning networks = 비디오 캡션 작성 네트워크에서의 비 지역적 블록의 영향 탐색
서명 / 저자 Exploring the effects of non-local blocks on video captioning networks = 비디오 캡션 작성 네트워크에서의 비 지역적 블록의 영향 탐색 / Jaeyoung Lee.
저자명 Lee, Jaeyoung ; 이재영
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033587

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MRE 19002

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In addition to visual features, the video also contains temporal information that contributes to semantic meaning regarding the relationships between objects and scenes. There have been many attempts to describe spatial and temporal relationships in the video, but simple encoder-decoder models are not sufficient for capturing long-range relationships in video clips because of the limitations of the local operations in recurrent models. In other fields, including visual question answering (VQA) and action recognition, researchers began to have interests in describing visual relations between the objects. In this paper, we introduce a video captioning method to capture temporal long-range dependencies with a non-local block. The proposed model utilizes both local and non-local features. We evaluate our approach on a Microsoft Video Description Corpus (MSVD, YouTube2Text) dataset and a Microsoft Research-Video to Text (MSR-VTT) dataset. The experimental results show that a non-local block applied along a temporal axis could compensate the long-range dependency problem of the LSTM on video captioning datasets.

비디오는 이미지와 같은 시각적 특징 외에도 시간적 흐름에 대한 특징을 지니며, 이는 객체와 장면 사이의 관계를 고려한 의미있는 정보 형성에 기여한다. 그동안 비디오에 대해 공간적, 시간적 관계를 설명하려는 많은 시도들이 있어왔지만, 단순한 부호화-복호화 모델은 순환신경망 모델에서의 지역적 계산의 한계로 인해 비디오 안에서의 장거리 관계정보를 잡아내기에 충분하지 않았다. 한편, 시각적 질의 응답 문제나 행동 식별 문제와 같은 다른 분야에서는 연구자들이 객체 간의 시각적 관계를 설명하는 데에 관심을 갖기 시작했다. 이 논문에서는 비 지역적 블록을 사용하여 시간적 장거리 관계를 잡아내기 위한 비디오 캡션 작성 방법을 제안한다. 제안된 모델은 지역적 특징과 비 지역적 특징을 모두 활용한다. 이러한 접근 방법을 마이크로소프트 비디오 설명 집합(MSVD)과 마이크로소프트 비디오-문서 변환 데이터셋(MSR-VTT)에 대해 평가했다. 실험 결과는 비디오 캡션 작성 데이터셋에서 비 지역적 블록이 시간적 축에 적용된 경우 LSTM의 장거리 종속성 문제를 보완할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {MRE 19002
형태사항 iii, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이재영
지도교수의 영문표기 : Junmo Kim
지도교수의 한글표기 : 김준모
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 22-24
주제 Video captioning
long short-term memory
non-local block
long-range dependency problem
비디오 캡셔닝
장기적 단기 기억장치
비 지역적 블록
장거리 종속성 문제
QR CODE qr code