While audio-driven talking head generation has achieved highly realistic multi-speaker generation, previous works rely on predefined additional data such as 3D model parameters, landmarks, and head pose angles. However, these explicit supervisions are expensive as scanning 3D models require special devices in a controlled lab environment, and landmarks are a manual annotation. In this paper, we propose a novel multi-speaker talking video generation framework that does not use any predefined prior for the first time. We first design a novel style code manipulator that explores the latent space of pretrained StyleGAN3 and generates a sequence of style codes within the distribution of the generator. In this way, we achieve identity-preserving head pose matching without any support of predefined supervision. Furthermore, by leveraging the power of StyleGAN3, our framework achieves high-quality video generation. Finally, we adopt sync loss, computed from an expert discriminator that maps audio and visual features to unified space, for better lip synchronization. Our framework is fully unsupervised since we do not include any model trained with additional data. Experimental results show that our method can generate high-quality video results and show competitive performance with the state-of-the-art methods that use supervision.
음성을 이용한 얼굴 비디오 생성을 통해 다양한 화자에 대한 사실적 생성이 가능해졌지만, 기존 연구들은 3차원 모델의 변수, 랜드마크, 머리 각도 정보 등의 추가 데이터를 필요로 한다. 이런 추가 데이터는 3차원 스캐닝이나 라벨링을 통해 수집되기 때문에 많은 비용을 필요로 한다. 이 연구는 사전 지식을 사용하지 않으면서, 다양한 화자에 대한 얼굴을 생성할 수 있는 방법을 최초로 제안한다. 제안된 방법에서는 style code manipulator가 사전학습된 StyleGAN3 은닉 공간 상의 style code를 순차적으로 생성한다. 이를 통해, 사전정보 없이도 이미지의 신원을 유지하면서 머리 자세를 조작할 수 있다. 나아가, StyleGAN3의 사용을 통해 고품질 비디오 를 생성한다. 마지막으로, 이미지와 오디오를 통합된 공간에 표현하는 expert discriminator에 의해 계산된 sync loss가 립싱크 품질을 향상시킨다. 제안된 모델은 음성을 이용한 얼굴 비디오 생성 실험에서 추가 데이터를 사용한 최신 모델과 비슷한 수준의 고품질 비디오 생성에 성공했다.