In this work, we explore an alternative method for view synthesis, drawing upon neural rendering and inverse rendering techniques applied to multiple images. Recent neural rendering approaches utilize inverse rendering to estimate parameters for physically-based rendering. However, due to its dependence on volume rendering, which accumulates color and density values from multiple samples to determine each pixel's radiance, neural rendering may not be the most preferred choice for real-time rendering applications yet. Multiplane image (MPI) rendering, in contrast, stores color and density information in multiple depth layers, which may provide a more efficient solution for real-time view synthesis. Nonetheless, the storage of image data in the normalized device coordinate system presents challenges when applying conventional inverse rendering methods directly to MPIs. Moreover, inverse rendering for physically-based rendering is seldom compatible with MPIs. To address these limitations, we propose a method for inverse rendering that aims to learn scene material information and light environment, enabling high-quality novel view synthesis, physics-based rendering, and scene editing. Our method represents geometric information in the form of an MPI and trains material data for each scene point. Furthermore, we differentiate the light environment into far-bound and near-bound regions to account for the global and local illumination of real scenes. Our rendering pipeline incorporates the spherical Gaussian approximation for reflectance and illumination, which may be more suited for real-time rendering applications and can integrate effectively with the traditional MPI architecture. The results of our study suggest the potential utility of our physically-based neural rendering approach, illustrating its possible applications in various scene editing tasks, such as relighting and seamlessly changing material appearance.
뉴럴 렌더링은 여러 개의 이미지를 사용하여 시점 합성을 하기 위해 널리 쓰이는 방법으로, 인버스 렌더링을 더하여 물리 기반 렌더링을 위한 파라미터를 추정할 수 있다. 하지만 기존의 방법에서 사용하는 볼륨 렌더링은 한 픽셀의 컬러와 밀도를 구하기 위해 여러 개의 샘플링이 필요하므로 실시간 렌더링에는 부적합하다. 반면, 여러 개의 깊이 레이어에 컬러와 밀도를 저장하는 다중 평면 이미지를 사용하면 실시간 시점 합성이 가능하지만, 정규화된 좌표계를 사용하기 때문에 기존의 인버스 렌더링을 적용할 수 없다. 따라서 본 학위 논문에서는 다중 평면 이미지를 사용하여 지오메트리 정보를 표현하고, 조명 환경을 원거리와 근거리로 구분하여 학습하고, 렌더링 방정식을 구형 가우시안 함수로 근사하여 렌더링 시간을 단축한 인버스 렌더링 모델을 제안한다. 본 모델은 실시간으로 작동하는 고품질의 시점 합성뿐만 아니라, 조명 환경이나 재질의 변형이 가능하여 물리 기반 뉴럴 렌더링의 유용성을 보여준다.