서지주요정보
Phrase-frames alignment network with contrastive attention loss for video description = 의미 중심 구-프레임 정렬과 대조 집중 손실을 통한 영상 묘사
서명 / 저자 Phrase-frames alignment network with contrastive attention loss for video description = 의미 중심 구-프레임 정렬과 대조 집중 손실을 통한 영상 묘사 / Hobin Ryu.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036624

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 20136

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This paper considers a video caption generating network referred to as Phrase-Frames Alignment Network (PFAN) that solves the problem of information redundancy of successive sampled frame, prevalent in most video captioning algorithms. As consecutive sampled frames are less likely to provide unique information, prior methods have focused on encoding compact video representation from an input video through various methods such as using a hierarchical encoder or learning to sample informative frames. The PFAN attempts to compactly encode the input video by not only using the visual features of frames but also the semantics of a partially decoded caption. The PFAN (1) forms \textit{semantic groups} by aligning each video frame feature with discriminating word phrases of partially decoded caption and then (2) decodes the semantic groups to predict the next of the partially decoded caption. In contrast to the prior methods, the continuous feedback from decoded words enables the PFAN to dynamically update the video representation that adapts to the partially decoded caption. Furthermore, a contrastive attention loss is proposed to facilitate accurate alignment between word phrases and video frame features without requiring any manual annotations. The PFAN achieves state-of-the-art performances by outperforming runner-up methods by a margin of 2.1% and 2.4% in a CIDEr-D score on MSVD and MSR-VTT datasets, respectively. Extensive experiments are conducted to demonstrate the effectiveness and interpretability of the PFAN.

이 논문에서는 연속된 프레임의 정보 중복 문제를 해결하는 "구-프레임 정렬 네트워크"라고하는 비디오 캡션 생성 네트워크를 다룬다. 샘플링 된 프레임 중 연속된 프레임이 고유한 정보를 제공할 가능성이 낮기 때문에, 기존의 방법은 계층적 인코더를 사용하거나 유익한 프레임을 샘플링하는 등 다양한 방법을 통해 입력 비디오로부터 압축된 비디오 표현을 인코딩하는 데 중점을 두었다. 구-프레임 정렬 네트워크는 프레임의 시각적 특징뿐만 아니라 부분적으로 완성된 묘사 문장의 의미에 기반해 입력 비디오를 압축적으로 인코딩하고자 한다. 구-프레임 정렬 네트워크는 (1) 각각의 비디오 프레임 특징을 부분적으로 완성된 묘사 문장의 단어로부터 생성한 구에 정렬시킴으로써 의미 그룹을 형성하고, (2) 의미 그룹을 활용하여 부분적으로 완성된 묘사 문장의 다음 단어를 예측한다. 기존의 방법과 달리, 예측된 단어로부터의 연속적인 피드백은 구-프레임 정렬 네트워크가 부분적으로 완성된 묘사 문장에 적응하는 비디오 표현을 동적으로 갱신 할 수있게한다. 또한, 수동 라벨링 작업을 요구하지 않으면서 구와 비디오 프레임 간 정확한 정렬을 용이하게하기 위해 대조적인 주의 손실을 제안한다. 구-프레임 정렬 네트워크는 두 개의 비디오 묘사 벤치마크 데이터 셋에서 사람의 문장 평가 점수와 가장 큰 상관관계를 가진다고 알려진 측도에서 각각 2.1 % 및 2.4 %의 차이로 기존의 최고 성능 알고리즘을 능가함과 동시에 세계 최고의 수준의 성능을 달성한다.

서지기타정보

서지기타정보
청구기호 {MEE 20136
형태사항 iv, 25 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 류호빈
지도교수의 영문표기 : Chang Dong Yoo
지도교수의 한글표기 : 유창동
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 20-22
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서