Facial Expression Transfer synthesizes a video with a given static portrait that imitates the driving video. To effectively capture the characteristics of the face with given face images, recent studies adopt the deformation operation, where the source images are deformed toward the target structures guided by driving frames. However, we observe that those methods frequently suffer from identity distortion for the source subjects since they transfer not only the expressions but also the personal shapes from the driving subjects. To resolve this issue, we propose Identity Preserving Portrait Animator (IPPA), which learns the identity-independent expression space and predicts the target structure based on the expression representation and the source image's structure. We evaluate IPPA on the two benchmark datasets such as Voxceleb and TalkingHead-1KH, and confirm that IPPA can generate high-quality videos imitating the driving expressions while preserving the identity of the source subjects.
표정 전이 비디오 생성은 주어진 비디오 속 인물의 표정을 추가로 주어진 이미지 속 다른 인물에게 전이하여 이미지 속 인물이 비디오 속 인물을 따라 하는 새로운 비디오를 생성하는 기술이다. 이미지 속 인물의 특징을 잘 보존하는 영상을 생성하기 위해, 최근 많은 연구에서 제시한 방법들이 디포메이션 연산, 즉 다른 이미지의 구조를 목표로 원본 이미지를 변형시키는 연산을 도입한다. 그러나, 우리는 이러한 방법을 통해 표정 전이 비디오를 생성할 때 생성 비디오 속 인물의 생김새가 원본 이미지 속 생김새와 달라지는 신원 왜곡 문제가 자주 발생함을 발견했다. 이 문제는 디포메이션 연산 과정에서 비디오 속 인물의 표정뿐만 아니라 생김새까지 생성 영상에 전달되기 때문이다. 우리는 이를 해결하기 위한 신원 보존성 표정 전이 모델 (IPPA)를 제안한다. 이 모델은 인물의 고유 생김새에 독립적인 표정 표현을 스스로 학습하며, 비디오의 표정 표현을 이미지에서 추출한 생김새 표현과 결합하여 생성 비디오의 구조를 결정함으로써 원본 이미지 속 인물의 생김새를 보존하는 영상을 생성한다. 또한 제시된 모델은 인물 비디오로 구성된 두가지 데이터 셋을 이용한 평가에서 모두 기존 모델 보다 우수한 성능을 보여준다.