Man-made (structure) environments surrounding us have structural forms (from the layout of a city to buildings and many indoor objects such as furniture), which can be represented by a set of parallel and orthogonal planes. In 3D space, specifically, a major fraction of surfaces can be described by just a few planes with even fewer different surface normal directions. Also, intersections of planes in 3D are lines which can be observed as lines in the image space. A vanishing point (VP) is the intersection of multiple such image-space lines where the lines in 3D are all parallel to each other. This sparsity is evident in both the surface normal distributions and image-space lines. Thus, it naturally connects to structure assumptions in computer vision and 3D reconstruction systems. Most approaches focus on the segmentation or scene understanding task given known 3D structure, camera poses and intrinsically calibrated RGB images.
Among the various structure assumptions, Manhattan world (MW) assumption is commonly utilized due to its simplicity represented by three orthogonal directions and its notion can be represented as Manhattan frame (MF). Recently, more complex structure assumptions such as Atlanta world and mixture of Manhattan frames were proposed to represent more general man-made environments. Recognizing underlying structure assumptions of man-made environments (directional perception) is a key part in many computer vision applications such as indoor or urban 3D reconstruction, AR/VR where both accuracy and efficiency are required.
In this dissertation, under the man-made environments, given surface normals (3D domain) or line normals (intrinsically calibrated image domain), we propose a method to estimate directional perception (Manhattan frame and Atlanta frame) in a robust manner. In particular, based on a branch-and-bound (BnB) framework, which is robust against outliers and guarantees a global optimality, the contribution of this dissertation as follows:
(1) We propose globally optimal MF estimation in real-time, which is applicable to real-time applications. Specifically, we present new bound computation to resolve computational time issue of conventional BnB framework.
(2) Further, we propose new modeling for more general structural assumption, Atlanta world assumption and solve this problem in globally optimal manner. We introduce another efficient bound computation scheme and a method to estimate the number of horizontal direction for a given scene in an automatic manner.
(3) Based on the estimated directional perception (especially, Atlanta frame), we introduce two interesting applications: AF-aware RGB-D SLAM and 3D object (vehicle) localization using AF.
실내환경(작은 스케일)부터 도시 규모 건물의 레이아웃(큰 스케일)까지 우리를 둘러싸고 있는 구조적인 환경(인간이 만든 환경)은 평행하거나 서로 직교하는 여러 평면들로 표현될 수 있다. 이러한 구조적 특성은 {RGB-D} 카메라 혹은 LiDAR와 같은 3차원 센싱을 통해 얻어진 3차원 도메인에서는, 즉 표면 법선 벡터 공간에서는 소수의 대표 법선 벡터 집합으로 표현 가능하며, 영상 도메인(2차원 도메인)에서는 구조적인 환경의 직선으로부터 표현되는 소수의 소실점 집합으로 표현이 가능하다. 컴퓨터 비전 분야에서는 이러한 특성으로부터 구조적인 환경을 효율적으로 표현하기 위해 여러 구조적인 가정들이 제안되어왔다.
가장 널리 사용되는 구조 가정은 맨하튼 월드 가정으로 직육면체와 같이 모든 평면이 직교하는 구조가 이 가정에 해당된다. 이 가정은 이는 세 개의 직교하는 방향 벡터로 표현되며, 이는 맨하튼 프레임으로 불린다. 맨하튼 프레임은 그 단순함 덕분에 컴퓨터 비전 분야에서 가장 널리 사용되고 있으며, 최근에는 좀 더 복잡한 구조적인 환경을 표현하기 위해 애틀랜타 월드 가정, 다중 맨하튼 가정 등과 같은 여러 가지 가정들이 제안되고 있다. 이러한 구조적인 가정을 추정하는 문제를 구조적인 환경에서의 방향 정보 인식이라고 한다. 구조적인 환경에 방향 정보 인식은 효과적인 실내환경 혹은 도시환경 3차원 복원, 가상/증강현실 등 여러 연구 및 비전 어플리케이션의 기반으로 사용되고 있다. 따라서, 정확하면서도 효율적으로 방향 정보를 인식하는 것은 컴퓨터 비전 분야의 매우 중요하며 근본적인 문제이다.
본 학위 논문에서는 인간이 만든 환경의 3차원 도메인(법선 백터 공간) 혹은 영상 도메인 정보가 주어졌을 때, 노이즈에 강인한 구조 가정(맨하튼 프레임과 애틀랜타 프레임), 즉 방향 정보 인식 방법을 제안한다. 구체적으로 노이즈에 강인하면서 최적해를 추정하는 분기한정법을 기반 방법으로 하여, 본 학위 논문이 기여한 부분들은 다음과 같다.
(1) 맨하튼 월드 가정하에 실시간 어플리케이션에 사용 가능한 맨하튼 프레임 추정 방법을 제안한다. 이를 위해 분기한정법의 제약점인 계산 시간을 개선하고자 효율적인 한계치 계산 방법을 새롭게 제안한다.
(2) 나아가, 좀 더 일반적인 구조 가정인 애틀랜타 월드 가정(애틀랜타 프레임)에 대한 새로운 모델링을 제안하고, 최적해를 만족하는 애틀랜타 프레임 추정 방법을 제안한다. 여기서, 또 다른 효율적인 한계치 계산 방법 및 자동으로 애틀란타 방향의 갯수를 추정하는 방법을 제안한다.
(3) 마지막으로, 추정한 방향 정보를 이용한 응용을 소개한다. 그 응용으로 애틀랜타 프레임을 기반으로 하는 RGB-D 카메라 실시간 위치 추정 및 지도 작성법과 애틀랜타 프레임을 이용한 3차원 자동차 위치 추정 방법에 대해 제안한다.