An image is a 2D projection of the 3D world. Therefore, it is not straightforward to restore 3D information from the 2D image. This thesis is based on three observations available in our urban environments. First, an object is usually on a plane such as a floor and a road. Second, a surveillance camera and dashboard camera attached to a car and robot have a constant height from the ground. Third, Two adjacent images captured by a camera has little change. This thesis establishes three major constraints based on the observations and derives two efficient geometric tools. From a single image, on-plane projective geometry is a tool to interpret metric properties of an object on a plane. It is based on a canonical camera which is a virtual camera aligned to the plane. The canonical camera makes complex 3D inference problems simple and accessible. The on-plane projective geometry was applied to metric image processing and metric intelligent visual surveillance. From an image sequence, simplified epipolar geometry provides methods to estimate relative pose between two images based on motion constraints. It includes fast and reliable 2-point relative pose solvers for planar motion. It also contains fast and iterative 5-point relative pose solver for general but small inter-frame motion. The relative pose solvers were applied to monocular visual odometry and demonstrated their efficiency. Monocular visual odometry and SLAM suffer from motion scale ambiguity, which is tackled by two approaches. First, the motion scale is retrieved from the camera's constant height constraint. Second, the motion scale is measured by an additional sensor, speedometer. This thesis demonstrates scale-corrected monocular visual odometry whose performance is close to the state-of-the-art.
카메라 영상은 3차원 세계의 2차원 투영이고, 이 때문에 2차원 카메라 영상을 이용해 3차원 정보를 획득하는 것은 단순하지 않다. 건물 내외 및 도로와 같은 도심 환경에서 물체들은 보통 평면 위에 존재하고, CCTV 카메라나 자동차/로봇에 장착된 카메라는 지면과 일정한 거리를 갖는다. 또 카메라에서 연속으로 촬영된 두 장의 영상은 큰 차이를 갖지 않는다. 본 학위논문에서 전술한 물체/카메라가 갖는 세 가지 제약조건을 활용해 2차원 영상에서 효율적인 3차원 인지를 수행하는 방법들을 제안한다. 첫째, 물체가 평면 위에 있다는 제약조건을 통해 단일 영상에서 물체의 미터 단위 위치와 크기를 추정할 수 있는 도구인 평면 투영 기하학(on-plane projective geometry)을 제안한다. 평면 투영 기하학에서는 표준 카메라(canonical camera)라는 개념을 통해 쉽게 3차원 정보들을 획득할 수 있다. 본 학위 논문에서는 평면 투영 기하학을 미터단위 영상처리(metric image processing)와 미터단위 지능형영상감시(metric intelligent visual surveillance)에 응용한다. 둘째, 카메라가 평면운동을 한다는 조건과 연속된 영상 사이에서 카메라의 움직임이 작다는 조건을 이용해 카메라의 움직임을 쉽고 빠르게 추정할 수 있는 단순화된 에피폴라 기하학(simplified epipolar geometry)을 제안한다. 단순화된 에피폴라 기하학에서는 두 영상 사이의 두 정합점을 이용한 빠르고 안정적인 카메라의 평면 움직임을 추정 방법과 다섯 개의 정합점을 이용해 빠르게 카메라의 3차원 움직임을 추정하는 방법을 제안한다. 두 움직임 추정 방법은 단안 카메라를 이용한 영상 오도메트리(monocular visual odometry)에 적용되어 유용함을 보인다. 단안 카메라를 이용한 영상 오도메트리는 움직임의 크기를 추정할 수 없는 문제(scale ambiguity)를 갖고 있고, 카메라와 지면 사이의 거리가 일정하다는 조건을 이용한 방법과 추가적인 속도계 센서 값을 이용한 방법을 통해 이를 극복한다.