In modern times, the application of 3D scene comprehension spans a broad range of industries. A recent example of this includes Apple's release of VisionPro, a device dedicated to mixed reality, equipped with multiple camera sensors, depth sensors, and LiDAR sensors. Given this setup, it can be inferred that the device will process 3D data directly for 3D scene understanding. Beyond its application in mixed reality, autonomous vehicles and mobile devices also incorporate 3D scene comprehension. In light of this trend, this dissertation explores 3D Scene Understanding through Deep Point Cloud. This dissertation expands the definition of point cloud, involving three key aspects: (1) Point-from-Sensor, (2) Point-from-Model, and (3) Point-from-Surface samples. In terms of point-from-sensor, the traditional meaning of point cloud was limited to measurements taken from LiDAR sensors. However, we broaden this definition to also encompass measurements obtained from depth sensors. For point-from-model, contemporary deep learning methods employ readily available pre-trained networks to leverage geometric priors. Consequently, the definition of point cloud also incorporates the geometric information inferred from these pre-trained deep learning models. Lastly, point cloud includes surface samples. Analogous to Poisson sampling, points can be sampled in close proximity to the learned surface geometry within the Signed Distance Function. In this context, we consider this point as an element of the newly defined point cloud. Informed by this definition, this thesis delves into three typical 3D scene interpretation tasks: 3D reconstruction, 3D recognition, and neural rendering, approached from the point cloud perspective.
In the 3D reconstruction task, we directly confront the inherent challenges in point cloud, such as sparsity, noise, and irregularity. (1) It is widely acknowledged that point clouds from LiDAR sensors are sparse, which hinders the geometric understanding of target scenes. We propose stereo-LiDAR fusion methods to address this issue, which leverage dense stereo images with sparse points from a LiDAR sensor. (2) In regard to another aspect of point cloud issues, noise, we utilize multi-view stereo matching and harness multi-view cues for a point cloud denoising algorithm. (3) To tackle irregularity in point cloud, we utilize a novel sparse tensor representation for point cloud reconstruction.
The 3D recognition task, unlike the 3D reconstruction task, aims for semantic understanding, such as categories. According to the problem setup, instead of explicitly correcting or modifying point information, we suggest a method to mitigate the irregularity issue of point cloud. Specifically, we reevaluate the k-Nearest Neighbor algorithm so that our method treats the k-nearest neighbor clustering as a bi-directional graph, while most prior studies only use this clustering as a single-direction graph.
In the neural rendering task, we concentrate on enhancing the strengths of point cloud, such as efficiency and representational power. We propose a space-time surface sampling idea for high-fidelity rendering.
By employing this strategy, our goal is to highlight the importance of point cloud for 3D scene interpretation in real-world applications.
3차원 공간에 대한 이해는 오늘날 여러 어플리케이션에서 적용되고 있다. 대표적인 예로서, 혼합현실 (mixed reality) 를 목표로하는 Apple 의 VisionPro 기기의 경우, 카메라 센서 뿐만 아니라 뎁스 및 라이더 센서를 탑재한 것으로 알려지며 직접적으로 3차원 데이터를 수집 및 가공할 것으로 알려지고 있다. 이러한 예시 뿐만 아니라 자율 주행 및 모바일 기기 등에서도 라이더 센서 등은 이미 활용되며 3차원 공간에 대한 이해는 이미 많은 분야에서 현실 세계에서 구체화 되고 있다. 이러한 흐름에 발맞추어, 본 논문에서는 포인트 클라우드를 활용한 3차원 공간에 대한 이해를 다루고자 한다. 여기서 포인트 클라우드는 라이더 센서로부터 측정된 3차원 공간의 위치 정보값 뿐만 아니라 좀 더 확장된 개념으로 쓰고자 한다. 첫 번째로는, 센서로 부터 획득된 포인트 클라우드. 여기서 센서는 라이더 뿐만 아니라 뎁스 센서 또한 포함시키고자 한다. 두 번째로, 딥러닝으로부터 획득된 포인트 클라우드. 오늘날 많은 논문들에서 이미 학습된 다른 방법론을 이용하여 지오메트리 정보를 사전에 취득 및 이용한다. 이에 따라 두 번째 확장된 포인트 클라우드 개념으로서 딥러닝 모델로부터 획득한 뎁스 정보 또한 포인트 클라우드의 범주 안에 포함시키고자 한다. 마지막으로는, 표현 샘플 (surface sample) 로 부터 획득한 포인트 클라우드이다. 이는 센서 혹은 학습된 모델이 아닌 순수 알고리즘을 통해 얻은 포인트 정보로서 이또한 포인트 클라우드의 확장된 범주에 포함시키고자 한다. 다소 상이할 수 있는 이러한 포인트 클라우드의 개념들은 표면 정보를 표현한다는 점에서 큰 공통점을 갖고 있고 3차원 공간에 대한 이해를 정확히 해내는 데에 필요한 정보이므로 이를 같은 범주 안에 포함한다.이러한 정의에 따라, 오늘 학위 논문은 3차원 공간에 대한 이해의 일부로서, 3차원 공간 복원 (3D reconstruction), 3차원 인식 (3D recognition), 그리고 뉴럴 렌더링 (neural rendering) 에서의 포인트 클라우드 적용 방안을 모색한다.
3차원 공간 복원 (3D reconstruction) 의 경우, 포인트 클라우드의 직접적인 문제로 거론되는 세 가지 문제, 결핍 (sparsity), 노이즈 (noise), 그리고 불규칙성 (irregularity), 를 해결한다. 첫 째, 결핍 (sparsity) 문제의 경우 LiDAR 로 부터 획득한 포인트 클라우드의 경우, 정보의 양이 적어 3차원 공간을 이해하는 데에 어려움이 있다. 이를 센서 퓨전 관점에서 해결하고자, 이미지 정보와 포인트 클라우드 정보의 융합 방언에 대해 고민한다. 구체적으로 두 대의 카메라 (stereo cameras) 와 한 개의 라이더 센서를 활용한 방법론을 제시한다. 둘 때, 노이즈 (noise) 문제의 경우, 학습된 딥러닝 모델에서 추론된 뎁스 정보를 여러 관점에서의 뎁스 (multi-view stereo)를 이용하여 노이즈를 필터링한다. 마지막으로 불규칙성의 문제는 포인트 클라우드는 부족한 복셀 표현 방법론 (sparse voxel representation) 으로 해결한다. 통일된 방법론으로서 제시하지는 못 하였으나 각각의 문제에 대한 정의 및 해결책을 내놓는 다는 점에서 의의가 있다.
3차원 인식 (3D recognition) 의 경우, 포인트 클라우드가 갖고 있는 내제적인 문제를 직접적으로 해결하는 것보다도 물체 혹은 공간 인식 (semantic understanding) 에 더욱 주안점을 두는 만큼 포인트 클라우드의 불규칙성을 완화시킬 수 있는 방안을 제시하며 물체 인식 정확도를 높이는 방법론을 제안한다. 구체적으로 본 학위 논문에서는 포인트 클라우드의 클러스터링 (clustering) 에 자주 쓰이는 k-Nearest Neighbor 방법론을 새로운 방식에서 접근하여 기존의 한 방향성 그래프 (directional graph) 가 아닌 양방향 그래프 (bi-directional graph) 로 접근하여 해당 문제를 해결한다.
마지막으로, 뉴럴 렌더링 (neural rendering) 의 경우, 표면 샘플 (surface sample)을 활용한 방법론을 제시한다. 이 기법들에서는 포인트 클라우드가 갖고 있는 한계에 집중하기 보다도 점이라는 표현 방법론이 갖고있는 장점을 극대화하는 관점에서 각 방법론을 제시한다.
이처럼 본 논문은 포인트 클라우드를 활용하는 3차원 공간 이해를 다룬다. 포괄적인 의미에서의 포인트 클라우드를 정의하고 점이라는 표현 방법론이 갖고 있는 한계를 지적하며 동시에 이 방법론이 갖고있는 강점을 극대화하여 더 빠르고 정확하며 여러 상황에서 적용가능한 (generalizable) 방법론을 제시한다. 이러한 실험 결과를 기반으로 본 학위 논문에서는 포인트 클라우드의 필요성을 강조하며 마치도록 한다.