Recently, there has been increasing interest in the capture of depth information on mobile devices, to enable a variety of AR/VR and photographic applications. Conventional depth cameras require additional devices, such as the ToF sensor or structured-light type sensor, or Lightfield cameras, which increase the manufacturing costs and the size of devices. Due to the impracticality of the conventional depth sensor, the monocular vision-based approaches are emerging as a new alternative. However, vision-based methods are susceptible to the capturing environment. In this dissertation, we pursue to develop the robust 3D map generation method to the illumination changes and texture-less regions using hand-held cameras. We focus on vision-based technology that can be applied in the real world. We achieve the generality by using the data-driven approaches whose design is inspired by best practices of traditional geometry-based approaches.
First, we proposed a dense 3D reconstruction method for the rolling shutter cameras. Commercial hand-held cameras are mostly equipped with the rolling shutter cameras to reduce the manufacturing cost, so they typically cause the undesired rolling shutter artifact. In this study, we introduced a novel small motion bundle adjustment that effectively compensates for the rolling shutter effect. Moreover, we proposed a pipeline for a fine-scale dense 3D reconstruction that models the rolling shutter effect by utilizing both sparse 3D points and the camera trajectory from narrow-baseline images. In this reconstruction, the sparse 3D points are propagated to obtain an initial depth hypothesis using a geometry guidance term. Then, the depth information on each pixel is obtained by sweeping the plane around each depth search space near the hypothesis.
Second, we proposed a practical method that generates an all-around dense depth map using a narrow-baseline video clip captured by an SPC. While existing methods for depth from small motion rely on perspective cameras, we introduced a new bundle adjustment approach tailored for SPC that minimizes the re-projection error directly on the unit sphere. It enables to estimate approximate metric camera poses and 3D points. Additionally, we presented a novel dense matching method called sphere sweeping algorithm. This allows us to take advantage of the overlapping regions between the cameras.
Moreover, we presented a robust depth estimation method from a short burst shot with varied intensity (i.e., Auto-exposure bracketing) and strong noise (i.e., High ISO). Our key idea synergistically combines deep convolutional neural networks with a geometric understanding of the scene. In this study, we introduced a geometric transformation between optical flow and depth tailored for burst images, enabling our learning-based multi-view stereo matching to be performed effectively. we then described our depth estimation pipeline that incorporates this geometric transformation into our residual-flow network. It allows our framework to produce an accurate depth map even with a bracketed image sequence. We showed that the estimated depth is applicable for image quality enhancement and photographic editing.
Lastly, we presented a convolutional neural network called DPSNet (Deep Plane Sweep Network) whose design is inspired by best practices of traditional geometry-based approaches. Rather than directly estimating depth and/or optical flow correspondence from image pairs as done in many previous deep learning methods, DPSNet takes a plane sweep approach that involves building a cost volume from deep features using the plane sweep algorithm, regularizing the cost volume via a context-aware cost aggregation, and regressing the depth map from the cost volume. The cost volume is constructed using a differentiable warping process that allows for end-to-end training of the network.
최근 가상/증강 현실 및 사진 응용 프로그램을 다양하게 구현할 수 있도록 모바일 장치의 깊이 정보 캡처에 대한 관심이 증가하고 있다. 기존의 깊이 카메라에는 ToF 센서 또는 라이트필드 카메라 또는 스테레오 카메라와 같은 추가 장치가 필요하므로 제조 비용과 장치 크기가 증가한다는 단점이 있다. 그러나, 단안 시각 기반 깊이 추정 방법은 촬영 환경이나 방법에 영향을 받기 쉽다. 본 논문에서는 휴대용 카메라를 이용한 조명 변화 및 텍스쳐가 거의 없는 영역에서도 견고한 3차원 지도를 생성하는 방법을 개발하고자 한다. 우리는 일반적으로 사용될 수 있는 비전 기반 기술에 중점을 둔다. 우리는 전통적인 지오메트리 기반 접근 방식에서 영감을 얻은 데이터 기반 접근 방식을 사용하여 일반성을 달성하였다.
첫째, 단안 카메라에서 촬영된 좁은 베이스라인 영상들을 이용하여 고밀도 3차원 재구성 방법을 제안한다. 일반 휴대용 카메라는 대개 제조 비용을 줄이기 위해 롤링 셔터 카메라가 장착하고 있고, 이때문에 일반적으로 원하지 않은 롤링 셔터 에러가 유발된다. 롤링 셔터 효과를 효과적으로 보상하는 새로운 소형 모션 번들 조정을 소개한다. 또한, 좁은베이스 라인 이미지로부터 카메라의 궤적과 희소 3D 점을 모두 사용함으로써 롤링 셔터 효과를 모델링하는 미세 스케일의 고밀도 3 차원 재구성을 위한 파이프 라인을 제안한다. 이 재구성에서, 희박한 3 차원 포인트는 기하학 유도 용어를 사용하여 초기 깊이 가설을 얻기 위해 전파된다. 그 다음, 각 픽셀에 대한 깊이 정보는 가설 근처의 각 깊이 검색 공간 주변의 평면을 스윕함으로써 얻어진다.
두 번째로, 우리는 360 VR 카메라를 통해 캡쳐된 좁은베이스 라인 비디오 클립을 사용하여 전방향의 조밀한 깊이정보를 생성하는 실용적인 방법을 제안한다. 작은 모션에서의 깊이에 대한 기존의 방법은 원근 카메라에 의존하지만 360 VR 카메라에 맞게 조정 된 새로운 번들 조정 방법을 도입하여 단위 구상에 직접 재 투영 오차를 최소화한다. 대략적인 미터법 카메라 포즈와 3D 포인트를 추정 할 수 있다. 또한, 구형 스위핑 알고리즘이라는 새로운 고밀도 매칭 방법을 제시한다. 이것은 우리가 카메라들 사이의 겹치는 영역을 이용할 수있게 해준다.
또한, 다양한 강도 (즉, 자동 노출 브라켓 팅) 또는 강한 노이즈 (즉, 고 ISO)가 있는 짧은 버스트 샷으로부터 견고한 깊이 추정 방법을 제시한다. 우리의 핵심 아이디어는 깊은 컨볼 루션 신경 네트워크와 기하학적 이해의 시너지 있는 결합이다. 버스트 이미지에 적합한 옵티컬 플로우와 깊이 사이의 기하학적 변환을 도입하여 학습 기반의 멀티 뷰 스테레오 매칭을 효과적으로 수행한다. 그런 다음이 기하학적 변형을 잔류 흐름 네트워크에 통합하는 깊이 추정 파이프 라인을 제안한다. 브라켓된 이미지 시퀀스로도 정확한 깊이 맵을 생성 할 수 있다. 또한, 추정 된 깊이가 화질 향상 및 사진 편집에 적용 가능함을 보여준다.
마지막으로 전통적인 지오메트리 기반 방식의 모범 사례에서 영감을 얻은 DPSNet (Deep Plane Sweep Network)이라는 컨볼 루션 뉴럴 네트워크를 제시한다. 이전의 많은 심층 학습 방법에서와 같이 이미지 쌍으로부터의 심도 및 / 또는 광학 흐름 일치를 직접 평가하는 대신 DPSNet은 평면 스윕 알고리즘을 사용하여 심층 피처로부터 비용 볼륨을 구축하고, 평면 스윕 알고리즘을 사용하여 비용 볼륨을 정규화하는 평면 스윕 접근법 컨텍스트 인식 비용 집계, 비용 볼륨에서 깊이 맵 회귀. 비용 볼륨은 네트워크의 종단 간 교육을 가능하게하는 차별화 된 워핑 프로세스를 사용하여 구성된다.