서지주요정보
Style-based audio-driven talking head generation = 스타일 기반의 음성에 따른 얼굴 비디오 생성
서명 / 저자 Style-based audio-driven talking head generation = 스타일 기반의 음성에 따른 얼굴 비디오 생성 / Minyoung Song.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039056

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 22007

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

While audio-driven talking head generation has achieved highly realistic multi-speaker generation, previous works rely on predefined additional data such as 3D model parameters, landmarks, and head pose angles. However, these explicit supervisions are expensive as scanning 3D models require special devices in a controlled lab environment, and landmarks are a manual annotation. In this paper, we propose a novel multi-speaker talking video generation framework that does not use any predefined prior for the first time. We first design a novel style code manipulator that explores the latent space of pretrained StyleGAN3 and generates a sequence of style codes within the distribution of the generator. In this way, we achieve identity-preserving head pose matching without any support of predefined supervision. Furthermore, by leveraging the power of StyleGAN3, our framework achieves high-quality video generation. Finally, we adopt sync loss, computed from an expert discriminator that maps audio and visual features to unified space, for better lip synchronization. Our framework is fully unsupervised since we do not include any model trained with additional data. Experimental results show that our method can generate high-quality video results and show competitive performance with the state-of-the-art methods that use supervision.

음성을 이용한 얼굴 비디오 생성을 통해 다양한 화자에 대한 사실적 생성이 가능해졌지만, 기존 연구들은 3차원 모델의 변수, 랜드마크, 머리 각도 정보 등의 추가 데이터를 필요로 한다. 이런 추가 데이터는 3차원 스캐닝이나 라벨링을 통해 수집되기 때문에 많은 비용을 필요로 한다. 이 연구는 사전 지식을 사용하지 않으면서, 다양한 화자에 대한 얼굴을 생성할 수 있는 방법을 최초로 제안한다. 제안된 방법에서는 style code manipulator가 사전학습된 StyleGAN3 은닉 공간 상의 style code를 순차적으로 생성한다. 이를 통해, 사전정보 없이도 이미지의 신원을 유지하면서 머리 자세를 조작할 수 있다. 나아가, StyleGAN3의 사용을 통해 고품질 비디오 를 생성한다. 마지막으로, 이미지와 오디오를 통합된 공간에 표현하는 expert discriminator에 의해 계산된 sync loss가 립싱크 품질을 향상시킨다. 제안된 모델은 음성을 이용한 얼굴 비디오 생성 실험에서 추가 데이터를 사용한 최신 모델과 비슷한 수준의 고품질 비디오 생성에 성공했다.

서지기타정보

서지기타정보
청구기호 {MAI 22007
형태사항 iii, 17 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송민영
지도교수의 영문표기 : Sung Ju Hwang
지도교수의 한글표기 : 황성주
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 14-17
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서