Single view 3D reconstruction using deep learning based on human visual depth perception = 인간 심도지각 체계에 착안한 심층학습 기반 단일시점 3차원 복원법
3D information plays significant role in various computer vision and robotics tasks. 3D reconstruction can be done in multiple ways, such as stereo matching, structure from motion or sensor fusion. However, when it comes to single view 3D reconstruction, many of the existing deep learning-based methods rely heavily on collecting dataset. Yet, in human visual depth perception system, there are several cues that help human to perceive depth, such as perspective, relative size, occlusion, etc. This thesis aims to suggest robust and data-efficient model-based single view 3D reconstruction pipeline, that successfully models various human monocular depth perception cues into deep learning-based methodology. We first try this idea on several specific tasks to show the effectiveness of the visual depth cues. Each of the cues and following tasks are, 1) relative size and absolute size cues for dense LiDAR simulation with 2D laser observation, 2) aerial perspective and texture gradient cues for CNN-based simultaneous dehazing and depth estimation, 3) occlusion cue for depth completion using Plane-Residual representation and 4) perspective and elevation cues for single view scene scale estimation using scale field. Finally, by combining some of the cues and corresponding inspired methods, this thesis proposes a human-inspired single view depth estimation approach that is more robust and data-efficient than previous data-driven approach.

3D 정보는 다양한 컴퓨터 비전 및 로보틱스 문제에서 중요한 역할을 한다. 이러한 3D 정보는 스테레오 매칭, Structure from Motion 또는 센서 융합과 같은 다양한 방법으로 얻을 수 있다. 그러나 단일시점 3차원 복원법의 경우 선행 딥러닝 기반 방법 중 대다수가 데이터셋에 크게 의존한다. 인간의 심도지각체계는 원근감, 상대적 크기, 가림 등과 같이 인간이 깊이를 인식하는 데 도움이 되는 여러 신호가 존재한다. 본 논문에서는 이러한 인간의 다양한 단안 심도지각 신호를 딥러닝 기반 방법론으로 성공적으로 모델링하여 견고하고 데이터 효율적인 모델 기반의 단일시점 3차원 복원법을 제안하고자 한다. 우선 이러한 신호의 효과적인 응용을 위하여 몇 가지 특정 문제 해결에서 해당 아이디어를 시도하였다. 각 신호 및 이를 이용하여 접근한 문제는, 1) 상대크기 및 절대크기 신호를 이용한 2D 레이저로 부터의 밀집한 LiDAR 시뮬레이션, 2) 공기 원근법 및 결 구배 신호를 이용한 CNN 기반 동시 안개제거 및 깊이추정법, 3) 가림 신호를 이용한 Plane-Residual representation 기반 깊이지도 완성법, 그리고 4) 원근법 및 상승 신호를 이용한 Scale Field representation 기반 단일 시점 축적 추정법이 있다. 마지막으로, 앞서 언급한 신호들과 그로부터 영감을 받은 방법론을 결합하여, 이전의 데이터 기반 접근 방식보다 더 견고하고 데이터 효율적인 인간 심도지각 체계에 착안한 단일시점 3차원 복원법을 제안한다.


