서지주요정보
(A) study on free-view image synthesis with view-dependent effects based on camera motion and local context priors = 카메라 움직임 및 로컬 컨텍스트 사전 정보에 기초한 시점 의존적 효과를 고려한 자유시점 이미지 합성에 관한 연구
서명 / 저자 (A) study on free-view image synthesis with view-dependent effects based on camera motion and local context priors = 카메라 움직임 및 로컬 컨텍스트 사전 정보에 기초한 시점 의존적 효과를 고려한 자유시점 이미지 합성에 관한 연구 / Juan Luis Gonzalez Bello.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041573

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23094

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent advances in neural scene rendering have shed light on the usefulness of rendering view-dependent effects in the novel view synthesis task. In particular, NeRFs, have demonstrated that the radiance fields can be effectively learned in neural feature space via a multi-layer perceptron (MLP) that allows to render geometry and view-dependent effects for scenes that are carefully captured from multiple views. However, NeRF purely relies on multi-view consistency and cannot exploit prior knowledge such as textures and depth cues that are common across natural scenes, limiting its use when a few or only one view is available. On the other hand, to leverage the 3D prior knowledge in multi-view datasets, PixelNeRF proposed to train a multi-layer perception (MLP) which takes as input pixel locations and pixel-aligned features to generate the colors and opacities of the 3D points in the radiance fields. The pixel-aligned features which are obtained from a CNN backbone allow PixelNeRF to leverage the common priors among different scenes to render radiance fields, but cause considerably limited quality. Other works, such as single-image MPIs and MINE have also proposed single-view-based free-view synthesis, but cannot model view-dependent effects (VDE). View-dependent effects depend on the material's reflectance, which is a function of the material properties and the angle of incidence of the light. Learning such material properties and the sources of light from a single image is a very ill-posed problem. Previous works such as NeRFs of PixelNeRFs learn to directly regress the colors of pixels given the viewing directions while other methods, such as NeX, encode view-dependent effects into a given or learned basis. While these techniques are effective when learning from multiple input images, they are still limited to learning when a single image is given as input. Instead, to tackle the estimation of view-dependent effects in novel view synthesis, we propose to rely on the contents of the images and estimated (during training) or user-defined (during test time) camera motions to estimate photo-metrically realistic view-dependent effects from a single image for the first time. In addition, in this study, we propose a new geometric rendering pipeline inspired from neural volumetric rendering (NVR) by approximating NVR with a single pass of a convolutional (or transformer-based) auto-encoder network, a sampler MLP block, and a rendering MLP block. In addition, we train our networks in a self-supervised manner, that is, under the conditions that no camera poses or depth GTs are given during training (as in previous works). We present extensive experiments and show that our proposed method can learn free view synthesis with view-dependent effects on the challenging KITTI, RealEstate10k, and MannequinChallenge datasets.

최근 빠른 발전을 이루고 있는 신경 방사장 렌더링(NeRF, Neural Radiance Field Rendering) 기법은 새로운 장면 합성 영상을 생성하는데 있어 시점 종속적 렌더링 효과(view-dependent effect)를 만드는 것에 매우 유용하다는 것이 밝혀졌습니다. 특히, NeRF 기법은 여러 시점에서 획득된 장면 영상에 대한 기하학적 특징과 시점 종속적 효과를 효과적으로 렌더링하기 위해, 다양한 시점에서 획득된 많은 장면 영상을 이용하여 MLP(Multi-layer Perception)를 통해 방사장(radiance fields)을 효과적으로 학습할 수 있음을 보였습니다. 그러나 NeRF는 순전히 다중 시점 일관성에 의존적이며, 자연 영상의 장면에서 공통적으로 가지는 사전 지식 정보(텍스처, 깊이)를 활용할 수 없습니다. 이는 하나의 장면 영상 또는 소수 시점의 장면 영상만 주어진 경우에는 효과적으로 사용될 수 없습니다. 한편, 다중 시점 데이터에서 3D 사전 지식을 활용하기 위해 PixelNeRF는 픽셀 위치 및 픽셀 정렬 특징을 입력으로 사용하여 3D 방사장의 각 포인트에서 컬러 및 불투명도를 예측하는 MLP 훈련 방법을 제안했습니다. CNN 기반 기본 구조에서 얻은 픽셀 정렬 특징을 통해 PixelNeRF는, 서로 다른 장면 간 공통으로 내재된 사전 정보를 활용하여 상당히 제한된 품질 수준으로만 방사장을 렌더링할 수 있었습니다. 단일 이미지 MPI 및 MINE과 같은 다른 연구도 단일 시점 기반 자유 시점 영상 합성을 기법을 제안했지만 시점 종속적 비주얼 효과를 모델링할 수는 없습니다. 시점 종속적 비주얼 효과는 재료 (물질 표면)의 속성과 빛의 입사각의 함수인 재료의 반사율에 따라 달라집니다. 단일 이미지에서 이러한 표면 특성과 광원을 학습하는 것은 불량 조건 문제(ill-posed problem)에 속하는 어려운 분야입니다. PixelNeRFs의 NeRF와 같은 이전 연구는 시점 방향이 지정된 픽셀의 컬러을 직접 추정하는 회귀 방법을 배우는 반면, 다른 방법은 시점 종속적 효과를 주어진 또는 학습된 NeX 네트워크를 이용하여 인코딩합니다. 그러나 여전히 이러한 기법은 여러 입력 이미지 대해 학습할 때 효과적이지만, 단일 이미지가 입력으로 제공되는 경우에는 학습이 여전히 제한적입니다. 대신, 우리는 새로운 시점 영상 합성에 있어 시점 종속적 효과의 추정을 위해, 이미지의 컨텐츠와 주어진 카메라 움직임에 따라 단일 이미지에 대해서 측광학적으로 사실적인 시점 의존적 효과를 학습하는 방법을 처음으로 제안합니다. 이를 위해 본 연구에서는 컨볼루션(또는 트랜스포머) 기반 오토 인코더 네트워크, 샘플링 모듈 및 렌더링 모듈로 구성된 단일 패스 구조의 기학학적 렌더링 파이프라인 네트워크를 제안합니다. 또한, 카메라 포즈나 깊이 GT가 제공되지 않는 조건에서, 시점 종속적 효과의 표현이 내포된 자유 시점 단일 합성 영상의 생성이 가능한 자기지도 학습 방법을 제안합니다. 본 논문 연구에서 제안된 방법에 대해 KITTI, RealEstate10k 및 MannequinChallenge 데이터를 이용하여 시점 종속적 효과 표현이 가능한 자유 시점 단일 시점 합성 영상 생성을 매우 효과적으로 할 수 있음을 많은 실험을 통해 제시합니다.

서지기타정보

서지기타정보
청구기호 {DEE 23094
형태사항 ix, 102 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 건살레스 벨러 후안 루이스
지도교수의 영문표기 : Munchurl Kim
지도교수의 한글표기 : 김문철
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 92-98
주제 Deep learning
View synthesis
Depth estimation
새로운 시점 합성
딥 러닝
깊이 추정
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서