Humans can easily imagine a scene from auditory information based on their prior knowledge of audio-visual events. In this paper, we mimic this innate human ability in deep learning models to improve the quality of video inpainting. To implement the prior knowledge, we first train the audio-visual network to learn the correspondence between auditory and visual information. Then, the audio-visual network is employed as a guider that conveys the prior knowledge of audio-visual correspondence to the video inpainting network. This prior knowledge is transferred through our proposed two novel losses – audio-visual attention loss and audio-visual pseudo-class consistency loss – that further improve the performance of the video inpainting network. These two losses encourage the inpainting result to have a high correspondence to its synchronized audio. Experimental results demonstrate that our proposed method can restore a wider domain of video scenes and is particularly effective when the sounding object in the scene is partially blinded. This thesis is based on the author’s original paper [1].
사람은 경험적으로 얻은 시청각적 사건에 관한 사전 지식에 의거하여 청각적 정보와 관련된 장면을 떠올릴 수 있다. 본 논문에서는 이와 같은 사람의 능력을 딥 러닝 모델에 모방하여 비디오 인페인팅 품질을 향상시키는 방법에 대해 탐구한다. 전술한 시청각적 사전 지식을 구현하기 위해, 시각 및 청각 정보 간의 연관성을 학습하는 시청각 네트워크를 학습시킨다. 이 시청각 네트워크를 안내자로 활용하여, 비디오 인페인팅 네트워크에게 시청각적 일관성에 대한 사전 지식을 전달하게 된다. 앞서 언급한 사전 지식은 본 연구에서 새로이 제시하는 두 가지 손실 함수인 시청각 어텐션 손실 함수 및 시청각 의사-클래스 일관성 보존 손실 함수를 통해 전달된다. 두 손실 함수를 통해 비디오 인페인팅 네트워크는 손상된 프레임이 주어진 소리와 높은 일관성을 보이도록 복원시킨다. 본 연구에서 제시한 방법은 다양한 종류의 시청각 이벤트에 대한 비디오 프레임을 잘 복원하는 것은 물론, 소리를 발생시키는 물체가 부분적으로 가려진 비디오 프레임을 복원하는 경우 더욱 효과적이다.