Given a pair of facial performance videos, we present a deep learning-based approach that can automatically return a synchronized version of these videos. Traditional methods require precise facial landmark tracking and/or clean audio, and thus are sensitive to tracking inaccuracies and audio noise. To alleviate these issues, our approach leverages large-scale video datasets along with their associated audio tracks and trains a deep learning network to learn the audio descriptors of video frames. We then use these descriptors to compute the similarity between video frames in a cost matrix and compute a low-cost non-linear synchronization path. Both quantitative and qualitative evaluations have shown that our approach outperforms existing state-of-the-art methods.
주어진 한 쌍의 얼굴 표정연기 비디오에 대해 우리는 자동으로 동기화된 버전의 비디오를 만드는 딥러닝 접근법을 제안한다. 이전의 방법들은 얼굴의 랜드마크를 정밀하게 추적하고, 깨끗한 오디오 환경을 필요로 하기 때문에 추적의 정확성과 오디오 노이즈에 민감하다. 이러한 문제를 해결하기 위해 우리는 대용량의 비디오셋과 그에 해당하는 오디오를 활용하여 비디오 프레임의 오디오 설명자를 딥러닝을 통해 학습한다. 그리고 이 설명자를 사용하여 비디오 프레임간의 유사성을 나타내는 비용 행렬과 최소비용 비선형 동기화 경로를 계산한다. 정량적 평가와 정성적 평가를 통해 우리의 접근법이 존재하는 다른 방법들보다 뛰어남을 보여주었다.