This paper considers a video caption generating network referred to as Phrase-Frames Alignment Network (PFAN) that solves the problem of information redundancy of successive sampled frame, prevalent in most video captioning algorithms. As consecutive sampled frames are less likely to provide unique information, prior methods have focused on encoding compact video representation from an input video through various methods such as using a hierarchical encoder or learning to sample informative frames. The PFAN attempts to compactly encode the input video by not only using the visual features of frames but also the semantics of a partially decoded caption. The PFAN (1) forms \textit{semantic groups} by aligning each video frame feature with discriminating word phrases of partially decoded caption and then (2) decodes the semantic groups to predict the next of the partially decoded caption. In contrast to the prior methods, the continuous feedback from decoded words enables the PFAN to dynamically update the video representation that adapts to the partially decoded caption. Furthermore, a contrastive attention loss is proposed to facilitate accurate alignment between word phrases and video frame features without requiring any manual annotations. The PFAN achieves state-of-the-art performances by outperforming runner-up methods by a margin of 2.1% and 2.4% in a CIDEr-D score on MSVD and MSR-VTT datasets, respectively. Extensive experiments are conducted to demonstrate the effectiveness and interpretability of the PFAN.
이 논문에서는 연속된 프레임의 정보 중복 문제를 해결하는 "구-프레임 정렬 네트워크"라고하는 비디오 캡션 생성 네트워크를 다룬다. 샘플링 된 프레임 중 연속된 프레임이 고유한 정보를 제공할 가능성이 낮기 때문에, 기존의 방법은 계층적 인코더를 사용하거나 유익한 프레임을 샘플링하는 등 다양한 방법을 통해 입력 비디오로부터 압축된 비디오 표현을 인코딩하는 데 중점을 두었다. 구-프레임 정렬 네트워크는 프레임의 시각적 특징뿐만 아니라 부분적으로 완성된 묘사 문장의 의미에 기반해 입력 비디오를 압축적으로 인코딩하고자 한다. 구-프레임 정렬 네트워크는 (1) 각각의 비디오 프레임 특징을 부분적으로 완성된 묘사 문장의 단어로부터 생성한 구에 정렬시킴으로써 의미 그룹을 형성하고, (2) 의미 그룹을 활용하여 부분적으로 완성된 묘사 문장의 다음 단어를 예측한다. 기존의 방법과 달리, 예측된 단어로부터의 연속적인 피드백은 구-프레임 정렬 네트워크가 부분적으로 완성된 묘사 문장에 적응하는 비디오 표현을 동적으로 갱신 할 수있게한다. 또한, 수동 라벨링 작업을 요구하지 않으면서 구와 비디오 프레임 간 정확한 정렬을 용이하게하기 위해 대조적인 주의 손실을 제안한다. 구-프레임 정렬 네트워크는 두 개의 비디오 묘사 벤치마크 데이터 셋에서 사람의 문장 평가 점수와 가장 큰 상관관계를 가진다고 알려진 측도에서 각각 2.1 % 및 2.4 %의 차이로 기존의 최고 성능 알고리즘을 능가함과 동시에 세계 최고의 수준의 성능을 달성한다.