We address the problem of 3D scene reconstruction from monocular video. Classical methods of scene
reconstruction suffer from high computational complexity, while learning-based methods have not yet
provided a general solution. In this work, we propose a novel algorithm for estimating consistent dense
depth maps from learning-based depth prior with planar constraint and a full framework 3D scene
reconstruction that consists of three main parts: 1) time efficient sparse visual SLAM optimization
algorithm, 2) dense depth estimation and 3) weighted depth fusion. Unlike previous works, our framework
provides real-time and robust performance that works in generalized, challenging and texture-poor scenes
without inference-time fine-tuning. The experiments on unseen on training indoor datasets show that
our framework outperforms state-of-the-art methods in terms of ”in the wild” accuracy and speed.
우리는 이 논문에서 단안 영상을 활용한 3차원 장면 복원에서 발생하는 문제를 다룬다. 3차원 장면 복원은
크게 고전적인 방식과 학습 기반의 방식으로 나누어진다. 전자는 복잡도가 높기 때문에 너무 많은 연산을
요구하는 경향이 있으며, 반면에 학습 기반의 방식들은 특정 환경에서는 잘 동작하지만 보편적인 상황에서
정상적으로 동작하지 않는 경우가 많다. 이 논문에서 우리는 학습 기반 방식의 깊이 정보와 평면 제약 조건을
동시에 활용하여 일관성 있는 고밀도 깊이 정보 지도를 얻기 위한 방식을 제안한다. 더불어, 이러한 방식을
활용한 3차원 장면 복원의 전체 프레임워크를 제안한다. 해당 프레임워크는 다음 세 가지 부분으로 나누
어진다. 1) 시간 효율적인 영상기반 SLAM 최적화 알고리즘, 2) 고밀도 깊이 정보 지도 추정, 3) 가중치를
활용한 깊이 정보 병합. 기존의 연구들과는 달리, 제안된 방식은 실시간 동작이 가능하며, 보편적인 상황에서
강인하게 동작하는 특성을 가지고 있다. 이러한 특성은 고전적인 방식이 가지고 있는 텍스쳐 정보가 부족한
영역에서의 성능 저하 문제, 그리고 학습 기반 방식에서 요구되는 정밀한 알고리즘 튜닝 문제를 동시에 해결
함으로써 가능하다. 실험 결과는 학습이 되지 않은 영상을 포함한 데이터들에 대해서 우리가 제안한 방식이
기존의 여러 방식들에 비해서 높은 정확도와 빠른 속도를 동시에 확보할 수 있음을 나타낸다.