서지주요정보
Efficient text-guided editing of 3d scene with latent space NeRF = 잠재 공간 신경 방사장을 이용한 효율적인 3차원 공간 편집 기법
서명 / 저자 Efficient text-guided editing of 3d scene with latent space NeRF = 잠재 공간 신경 방사장을 이용한 효율적인 3차원 공간 편집 기법 / Jangho Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041937

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MRE 24003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, there has been a significant advancement in text-to-image diffusion models, leading to groundbreaking performance in 2D image generation. These advancements have been extended to 3D models, enabling the generation of novel 3D objects from textual descriptions. This has evolved into NeRF editing methods, which allow the manipulation of existing 3D objects through textual conditioning. However, existing NeRF editing techniques have faced limitations in their performance due to slow training speeds and the use of loss functions that do not adequately consider editing. To address this, here we present a novel 3D NeRF editing approach dubbed ED-NeRF by successfully embedding real-world scenes into the latent space of the latent diffusion model (LDM) through a unique refinement layer. This approach enables us to obtain a NeRF backbone that is not only faster but also more amenable to editing compared to traditional image space NeRF editing. Furthermore, we propose an improved loss function tailored for editing by migrating the delta denoising score (DDS) distillation loss, originally used in 2D image editing to the three-dimensional domain. This novel loss function surpasses the well-known score distillation sampling (SDS) loss in terms of suitability for editing purposes. Our experimental results demonstrate that ED-NeRF achieves faster editing speed while producing improved output quality compared to state-of-the-art 3D editing models.

딥러닝을 이용하여 텍스트를 통해 이미지로의 변환 모델의 상당한 발전이 있어, 2D 이미지 생성에서 혁신적인 성능을 이끌어내고 있다. 이러한 발전은 3D 모델로까지 확장되어, 텍스트 설명을 통해 새로운 3D 객체를 생성할 수 있게 되었다. 이는 신경 방사장 편집 기술로 진화되었는데, 이는 텍스트로 조건을 걸어 기존 3D 객체를 조작할 수 있게 한다. 그러나 기존의 신경 방사장 편집 기술은 훈련 속도가 느리고 편집을 충분히 고려하지 못하는 손실 함수를 사용하는 등의 제한점을 가지고 있다. 이를 해결하기 위해 우리는 여기에서 ED-NeRF라는 새로운 3D 신경 방사장 편집 접근 방식을 제시한다. 이는 독특한 정제 계층을 통해 실제 자연 이미지를 잠재 확산 모델(LDM)의 잠재 공간에 성공적으로 임베딩함으로써 가능해졌다. 이 접근 방식을 통해 우리는 기존의 이미지 공간 신경 방사장 편집에 비해 더 빠르면서도 편집에 적합한 신경 방사장 모델을 얻을 수 있다. 더불어, 편집 목적을 고려한 향상된 손실 함수를 제안한다. 이 손실 함수는 2D 이미지 편집에서 사용된 델타 디노이징 스코어(DDS) 증류 손실을 3D 도메인으로 이동시킴으로써, 잘 알려진 스코어 증류 샘플링(SDS) 손실에 비해 더 적합하다는 것을 입증한다. 실험 결과는 우리 방법이 최첨단 3D 편집 모델과 비교하여 더 빠른 편집 속도와 향상된 출력 품질을 달성한다는 것을 보여준다.

서지기타정보

서지기타정보
청구기호 {MRE 24003
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박장호
지도교수의 영문표기 : Jong Chul Ye
지도교수의 한글표기 : 예종철
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 23-25
주제 Neural radiance field
Generative model
Vision-language model
신경 방사장
생성모델
비전-언어 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서