3D modeling of real-world objects has garnered broad interest due to the rapid market growth of 3D printers, 3D entertainment, and 3D movies. Although the ranging hardware such as laser scanners and time-of-flight depth cameras can output reliable geometry very quickly, cameras are still regarded as an attractive means of acquiring geometry. This is because of their inherent ultra-high resolution optical sensor that can capture the superbly fine details of objects. These techniques are classified as image-based 3D modeling.
The challenges in image-based modeling are related to the camera functions and the scene reflectance. For instance, photo collections captured by different cameras exhibit color inconsistency, which is not appropriate for multiview image matching. In the case of texture-less regions, the matching procedure results in failure due to the homogeneous intensities. In addition, optimizing 3D representations such as point clouds, depth maps, and mesh models are not trivial because millions of variables should be optimized simultaneously.
In this dissertation, we introduce a pipeline that covers batch color correction, recovering 3D point clouds and their motion field, depth map upsampling/completion, and dense geometry acquisition. These are crucial modules for image-based 3D modeling. For instance, color correction is an important pre-processing stage for multiview stereo matching. Dense 3D motion is crucial for social behavior analysis and markerless motion capture. A high-quality depth map is necessary for stereoscopic view generation. Dense geometry acquisition can be used for 3D modeling and printing.
The key principle in these approaches is employing consecutive stages that involve outlier handling and constrained optimization. As an example of outlier handling, we utilize a robust matrix factorization algorithm to recover consistent albedo on the same objects, or to recover the photometric surface normal. We also introduce a closed form tensor voting scheme that effectively rejects outliers of 3D points and refines noisy motion fields. In the case of depth map refinement, the discontinuity regions are explicitly disregarded because they usually generate depth flipping. In the next stage, a constrained optimization technique is utilized for geometry refinement. It enforces a piecewise smooth characteristic between adjacent nodes. The nodes can be a 3D point, a depth map pixel, or a surface displacement of the dense geometry. For each problem, we verify that the constrained optimization technique can efficiently handle millions of variables by simply solving a sparse linear system.
This dissertation also covers novel schemes to reduce the degree of freedom (DoF) for efficient constrained optimization. In the case of motion field estimation, we relax the DoF of the variable to 1D motion magnitude. For dense geometry recovery, we parameterize the base mesh into a 2D planar mesh domain and only focus on optimizing the mesh displacement value. This scheme not only reduces the degree of freedom for optimization but also allows us to encode extreme details effectively.
We demonstrate the proposed algorithms on both real and synthetic datasets. In particular, the results of color corrected photo collection, reliable motion field estimation, HD quality depth map upsampling, and extremely fine detailed 3D reconstruction are presented. Quantitative experiments demonstrate that our algorithms achieve state-of-the-art performance relative to existing algorithms.
본 학위논문은 영상을 활용한 고품질 3차원 모델링에 관련된 핵심 기법들 ? 영상 단체 색 보정, 3D포인트 획득 및 움직임 추정, 뎁스맵의 초해상 복원 및 보완, 정밀한 3차원 메쉬 모델 복원에 관한 종합적인 방법론을 제시하였다. 소개된 방법론들은 입력 데이터의 아웃라이어 제거(outlier rejection) 및 제한적 최적화(constrained optimization)를 활용하는 핵심 아이디어에 공통적으로 기반하고 있다. 여기서 아웃라이어 제거는 직접적인 변수 제거 방법 혹은 강인한 행렬 완성 (matrix completion) 기법을 이용한 방법을 이르며, 제한적 최적화 기법은 3차원 정보를 표현하는 다양한 기초 요소들: 3차원 점의 변위, 뎁스맵(depth map)의 픽셀, 3차원 매쉬(mesh)의 표면이 공간적으로 인접한 요소들과 부분적으로 부드러운 특징(piecewise smooth)을 지니도록 최적화 하는 기법을 일컫는다. 소개된 기법들의 특징은 다음과 같다.
제안된 영상 단체 색 보정 기법은 다양한 감마, 화이트 밸런스와 같은 카메라 내부 함수의 영향으로 인해 같은 장면이 너무 밝거나 어둡게 찍히거나 같은 물체의 색이 사진마다 다르게 나온 경우 전체 사진의 색을 자동으로 보정한다. 기존 방법과 달리 본 방법은 적은 대응점 만으로도 수 천장의 사진의 색을 한번에 보정할 수 있다는 장점이 있다. 제안된 방법은 두 단계의 아웃라이어 제거 기법을 이용하는데, 영상에서 추출된 특징점이 세개 이상의 영상에 대해 최대 무리 그래프(maximal clique)를 구성하는 경우에만 대응점으로 관측 행렬을 만든다. 관측 행렬로부터 강인한 행렬 완성을 활용하여 부정확한 대응점이 있더라도 강인하게 모든 사진의 색이 같아지도록 하는 감마, 화이트 밸런스 값을 추정하였다. 또한 보정된 사진으로부터 다시점 영상 정합을 통해 3차원 모델을 얻을 경우, 고품질의 복원을 얻을 수 있음을 보였다.
주어진 장면의 3차원 점들과 점들의 움직임 추정 기법은 움직이는 물체를 여러 각도에서 촬영한 동영상을 이용한다. 우선 각각의 동영상에서 2차원 움직임 벡터를 추정하고, 다시점 영상간의 정합으로 3차원 점들을 구한 다음 이 정보들을 역투영(back-projection) 하여 3차원 움직임의 장(motion field)을 얻는다. 여기서 아웃라이어 제거 기법으로 닫힌 형태의 텐서 보팅(closed form tensor voting) 기법이 활용된다. 특히 제안된 방법에서는, 움직임 벡터를 최적화 하기 위해 3차원 공간에서 직접 보정을 하지 않고, 움직임 벡터의 방향을 우선 보정한 다음 움직임 벡터의 크기만을 제한적 최적화를 이용하여 보정하였다. 이러한 방법으로 수백만개의 3차원 점들과 움직임을 효율적으로 보정하고 최신 기법보다 우수한 고품질의 결과를 얻었다.
댑스맵 보정은 제한적 최적화를 이용하여 키넥트 혹은 ToF카메라로 얻는 저품질의 뎁스맵을 고품질 컬러 영상의 경계선 정보에 일치하도록 하여 날카롭고 선명한 경계를 갖도록 하는 알고리즘이다. 또한, 제안된 방법은 앞선 단계에서 얻은 3차원 점들의 투영된 점들도 뎁스맵으로서 포함할 수 있는 일반론적 방법이다. 제안된 기법은 컬러영상의 선명한 경계 단서들 (영역분할(segmentation), 경계선(edge), 색상(color), 뎁스맵)을 활용하는 기법에 대해 깊이 조사하였고. 또한 뎁스맵이 컬러 카메라 영역으로 정합되면서 발생하는 뒤집힘 현상을 찾아 이를 아웃라이어로 보고 제거하였다. 또한 뎁스 픽셀간의 시간적 대응관계를 활용하여 동영상 또한 처리가 가능함을 검증하였다.
앞서 언급한 3차원 점 혹은 뎁스맵을 위한 방법들과 더불어 3차원 프린터로 출력할 수 있는 정밀한 3차원 모델을 얻기 위한 방법 또한 소개되었다. 이 방법은 조명과 시점을 달리한 영상을 활용하는 다시점 포토메트릭 스테레오(multiview photometric stereo)를 기반으로 하고 있다. 제안된 방법의 특징은 다시점 영상의 정합만으로 얻어진 3차원 모델에 정밀한 기하학적 디테일을 추가하기 위해 3차원 모델을 2차원 평면으로 변형한 다음, 표면법선벡터(surface normal vector)를 추정하는 것이다. 이는 한 시점에서 표면의 법선벡터를 구하는 포토메트릭 스테레오를 모든 시점에서 한번에 구하도록 하는 구조적 장점을 가지고 있다. 또한, 선형적인 표면 반사 모델에 근거한 강인한 행렬 완성 기법을 활용하여 그림자와 반사 하이라이트(specular highlight)에 큰 영향을 받지 않는다. 추정된 법선벡터는 매우 정밀한 표면의 굴곡 정보를 담고 있는데, 이를 3차원 모델에 최대한 활용하는 변위맵(displacement map)을 추정하는 제한적 최적화 기법 또한 제안되였다. 제안된 방법은 빛의 방향 추정과 카메라 위치의 추정을 모두 자동으로 수행하므로 영상만 있다면 3차원 프린팅이 가능한 모델을 바로 얻을 수 있다는 장점이 있다. 이와 더불어 다시점 포토메트릭 스테레오를 위해 조명의 특성을 교정하는 기법도 소개되었다.