서지주요정보
SyncTalkFace: talking face generation with precise lip-syncing via audio-lip memory = 오디오 립 메모리를 통한 정밀한 립싱크를 가진 말하는 얼굴 생성
서명 / 저자 SyncTalkFace: talking face generation with precise lip-syncing via audio-lip memory = 오디오 립 메모리를 통한 정밀한 립싱크를 가진 말하는 얼굴 생성 / Se Jin Park.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038788

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22043

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The challenge of talking face generation from speech lies in aligning two different modal information, audio and video, such that the mouth region corresponds to input audio. Previous methods either exploit audio-visual representation learning or leverage intermediate structural information such as landmarks and 3D models. However, they struggle to synthesize fine details of the lips varying at the phoneme level as they do not sufficiently provide visual information of the lips at the video synthesis step. To overcome this limitation, our work proposes Audio-Lip Memory that brings in visual information of the mouth region corresponding to input audio and enforces fine-grained audio-visual coherence. It stores lip motion features from sequential ground truth images in the value memory and aligns them with corresponding audio features so that they can be retrieved using audio input at inference time. Therefore, using the retrieved lip motion features as visual hints, it can easily correlate audio with visual dynamics in the synthesis step. By analyzing the memory, we demonstrate that unique lip features are stored in each memory slot at the phoneme level, capturing subtle lip motion based on memory addressing. In addition, we introduce visual-visual synchronization loss which can enhance lip-syncing performance when used along with audio-visual synchronization loss in our model. Extensive experiments are performed to verify that our method generates high-quality video with mouth shapes that best align with the input audio, outperforming previous state-of-the-art methods.

음성으로부터 말하는 얼굴 생성의 핵심은 입 움직임이 입력 오디오와 일치하도록 두 가지 다른 모달 정보(오디오 및 비디오)를 정렬하는 데 있다. 이전 방법은 시청각 표현 학습을 활용하거나 랜드마크 및 3D 모델과 같은 중간 구조 정보를 활용한다. 그러나 영상 합성 단계에서 입술에 대한 시각적 정보를 충분히 제공하지 못하여 음소 수준에 따라 달라지는 입술의 미세한 부분까지 합성하는데 어려움이 존재한다. 이러한 한계를 극복하기 위해 본 연구에서는 입력 오디오와 일치하는 입 영역의 시각 정보를 가져와 립싱크를 강화시킬 수 있는 Audio-Lip Memory를 제안한다. 학습 시 입 움직임 특징을 메모리에 저장하고, 오디오 입력을 사용하여 일치하는 입 움직임 특징을 얻을 수 있도록 오디오와 비주얼 특징간의 정렬을 학습한다. 메모리에서 얻은 입 움직임 정보를 합성 단계에서 사용하여 오디오로부터 시각적 정보를 쉽게 매핑할 수 있다. 메모리를 분석하여 고유한 입술 특징이 각 메모리 슬롯에 음소 단위로 저장되어 메모리 주소를 기반으로 다양하고 미묘한 입술 움직임을 생성할 수 있음을 보여준다. 또한 시청각 동기화 손실과 함께 립싱크 성능을 향상시킬 수 있는 시각적-시각적 동기화 손실을 도입한다. 이전 최첨단 방법과 비교를 하여 본 논문에서 제시한 모델이 가장 우수한 립싱크와 비디오 품질을 생성함을 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 22043
형태사항 iv, 22 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박세진
지도교수의 영문표기 : Yong Man Ro
지도교수의 한글표기 : 노용만
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 18-20
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서