서지주요정보
NeRFFaceSpeech: one-shot audio-diven 3D talking head synthesis via generative prior = 생성적 사전 지식을 이용한 단일 이미지로부터 음성 입력 기반 말하는 3D 얼굴 생성
서명 / 저자 NeRFFaceSpeech: one-shot audio-diven 3D talking head synthesis via generative prior = 생성적 사전 지식을 이용한 단일 이미지로부터 음성 입력 기반 말하는 3D 얼굴 생성 / Gihoon Kim.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041965

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MGCT 24023

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Audio-driven talking head generation is advancing from 2D to 3D content. Notably, recent advancements leveraging Neural Radiance Field (NeRF) are in the spotlight to synthesize 3D output but they need extensive paired audio-visual data for each identity, limiting their scalability. On the other hand, some studies have demonstrated that even with a single image, it is possible to generate convincing audio-driven talking head synthesis. Despite their promise, as observed, these techniques struggle to produce accurate 3D-aware results due to insufficient information on obscured regions of a single image. In this paper, we propose our novel pipeline, NeRFFaceSpeech, which enables us to bridge the trade-off between the number of images and 3D information fidelity. Using prior knowledge of generative models combined with NeRF, our method can craft a 3D-consistent facial feature space corresponding to a single image. Following this, our approach employs ray deformation to map the audio-correlated vertex dynamics from a parametric face model to the facial feature space, ensuring realistic 3D facial motion. Moreover, to replenish the lacking information in the inner-mouth area, which can not be obtained from a given single image, we introduce LipaintNet—a novel network trained in a self-supervised manner. Lastly, our comprehensive experiments demonstrate the superiority of our pipeline for producing enhanced 3D consistency in generating audio-driven talking heads from a single image compared to previous approaches.

음성 입력 기반 말하는 얼굴 생성 연구는 2D에서 3D로 발전하고있다. 이에 최근 NeRF를 이용한 연구는 3D 결과를 생성하는데 있어서 주목을 받고 있다. 하지만 이러한 연구들은 많은 양의 오디오-비주얼 쌍의 데이터가 각 인물마다 요구되어 확장성에 제한된다. 다른 한편으로, 몇몇 연구들은 한 장의 이미지임에도 불구하고 적절한 오디오 입력 기반 말하는 얼굴 생성을 가능하게 한다. 하지만, 이러한 연구들은 한 장의 이미지로 부터 오는 정보의 부족 때문에 3D-aware한 결과를 얻는데 어려움을 겪는다. 따라서, 이 논문에서는 한 장의 입력 이미지로 부터의 정보의 부족을 해결하면서 음성 입력 기반 말하는 얼굴을 생성할 수 있는 파이프라인인 NeRFFaceSpeech를 제안한다. 이 프레임워크는 NeRF를 이용한 생성 모델의 사전지식을 이용하여 3D에 강건한 입력 이미지에 대응하는 얼굴 특징 공간을 만들어 낼 수 있어 이미지 수와 3D 정보량 사이의 상관관계를 타파한다. 우리는 광선 변형을 이용하여 오디오 정보와 대응하는 파라메트릭 얼굴 모델에서 오는 동적인 정보를 얼굴 특징 공간에 전이하여 특징 공간 상에서 3D 얼굴 모션을 생성하게 한다. 또한 한장에 이미지에서 제약되는 보이지 않는 입안 정보를 보충하기 위해, 우리는 자가지도학습을 통해 학습하는 LipaintNet을 제안한다. 마지막으로, 우리의 종합적인 실험은 우리의 파이프라인이 이전 연구와 비교하여 3D에 강건한 오디오 입력 기반 말하는 얼굴 이미지를 단 한장의 이미지로부터 생성할 수 있음을 보인다.

서지기타정보

서지기타정보
청구기호 {MGCT 24023
형태사항 iv, 31 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김기훈
지도교수의 영문표기 : Junyong Noh
지도교수의 한글표기 : 노준용
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 25-29
주제 Audio-driven talking head generation
Neural radiance field (NeRF)
D-aware imaging
Self-supervised learning
Generative prior
음성 기반 말하는 얼굴 생성
3D 애니메이션
자기 지도 학습
신경 방사 필드
생성적 사전지식
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서