Recently, there has been a significant advancement in text-to-image diffusion models, leading to groundbreaking performance in 2D image generation. These advancements have been extended to 3D models, enabling the generation of novel 3D objects from textual descriptions. This has evolved into NeRF editing methods, which allow the manipulation of existing 3D objects through textual conditioning. However, existing NeRF editing techniques have faced limitations in their performance due to slow training speeds and the use of loss functions that do not adequately consider editing. To address this, here we present a novel 3D NeRF editing approach dubbed ED-NeRF by successfully embedding real-world scenes into the latent space of the latent diffusion model (LDM) through a unique refinement layer. This approach enables us to obtain a NeRF backbone that is not only faster but also more amenable to editing compared to traditional image space NeRF editing. Furthermore, we propose an improved loss function tailored for editing by migrating the delta denoising score (DDS) distillation loss, originally used in 2D image editing to the three-dimensional domain. This novel loss function surpasses the well-known score distillation sampling (SDS) loss in terms of suitability for editing purposes. Our experimental results demonstrate that ED-NeRF achieves faster editing speed while producing improved output quality compared to state-of-the-art 3D editing models.
딥러닝을 이용하여 텍스트를 통해 이미지로의 변환 모델의 상당한 발전이 있어, 2D 이미지 생성에서 혁신적인 성능을 이끌어내고 있다. 이러한 발전은 3D 모델로까지 확장되어, 텍스트 설명을 통해 새로운 3D 객체를 생성할 수 있게 되었다. 이는 신경 방사장 편집 기술로 진화되었는데, 이는 텍스트로 조건을 걸어 기존 3D 객체를 조작할 수 있게 한다. 그러나 기존의 신경 방사장 편집 기술은 훈련 속도가 느리고 편집을 충분히 고려하지 못하는 손실 함수를 사용하는 등의 제한점을 가지고 있다. 이를 해결하기 위해 우리는 여기에서 ED-NeRF라는 새로운 3D 신경 방사장 편집 접근 방식을 제시한다. 이는 독특한 정제 계층을 통해 실제 자연 이미지를 잠재 확산 모델(LDM)의 잠재 공간에 성공적으로 임베딩함으로써 가능해졌다. 이 접근 방식을 통해 우리는 기존의 이미지 공간 신경 방사장 편집에 비해 더 빠르면서도 편집에 적합한 신경 방사장 모델을 얻을 수 있다. 더불어, 편집 목적을 고려한 향상된 손실 함수를 제안한다. 이 손실 함수는 2D 이미지 편집에서 사용된 델타 디노이징 스코어(DDS) 증류 손실을 3D 도메인으로 이동시킴으로써, 잘 알려진 스코어 증류 샘플링(SDS) 손실에 비해 더 적합하다는 것을 입증한다. 실험 결과는 우리 방법이 최첨단 3D 편집 모델과 비교하여 더 빠른 편집 속도와 향상된 출력 품질을 달성한다는 것을 보여준다.