Talking face generation aims to generate a face video to speak according to a given audio or driving video. Despite the importance of natural lower face movement, previous approaches have focused only on animating the lip, neglecting the connection between the modified lower face and the original background. As a result, the generated face is not smoothly integrated into the original video. To address this, we propose a new method to create a seamless talking face video by reformulating talking face generation as a conditional video in-painting. Moreover, since previous methods solely rely on referencing the original frame, the original frame's lip shape influences a generated lip shape. Therefore, we devise a two-stage pipeline that leverages the original frame to reduce scene-specific information loss in the lower face and then utilizes multiple other frames to generate a desired lip shape. Experimental results demonstrate that our method generates a seamless talking face while maintaining similarly accurate lip shapes compared to existing methods.
말하는 얼굴 생성 기술은 영상 속 인물이 주어진 오디오나 다른 영상 속 인물의 입모양에 맞게 말하도록 생성하는 기술을 의미한다. 기존에 제시된 방법에서는 생성된 얼굴과 배경간의 연결이 고려되지 않아 생성된 영상을 원본 영상에 붙였을 때 매끄럽지 않은 문제가 있었다. 이를 해결하기 위해, 우리는 말하는 얼굴 생성 기술을 조건부 비디오 인페인팅으로 해석하여 매끄러운 영상을 생성하는 새로운 방법을 제안하고자 한다. 더 나아가, 기존 방법들은 원본 프레임을 기반으로 하관을 생성하기에 원본의 입 모양이 생성 결과에 영향을 주었다. 이를 위해, 2 단계로 구성된 파이프라인을 통해 원본 프레임의 입 모양과 독립적인 하관을 생성하는 방법을 제안한다. 여러 데이터셋에서 진행한 실험 결과는 제안한 모델이 가장 매끄러운 하관을 생성하며 원본과 독립적인 입 모양을 생성함을 보여준다.