Offset Pixel Aperture (OPA) camera has been recently proposed to estimate disparity of a scene with a single shot. Disparity is obtained in the image by offsetting the pixels by a fixed distance. Previously, correspondence matching schemes have been used for disparity estimation with OPA. To improve disparity estimation we use a data-oriented approach. Specifically, we use unsupervised deep learning to estimate the disparity in OPA images. We propose a simple modification to the training strategy which solves the vanishing gradients problem with the very small baseline of the OPA camera. Training degenerates to poor disparity maps if the OPA images are used directly for left-right consistency check. By using images obtained from displaced cameras at training, accurate disparity maps are obtained. The performance of the OPA camera is significantly improved compared to previously proposed single-shot cameras and unsupervised disparity estimation methods. The approach provides 8 frames per second on a single Nvidia 1080 GPU with $1024 \times 512$ OPA images. Unlike conventional approaches, which are evaluated in controlled environments, our work shows the utility of deep learning for disparity estimation with real life sensors and low quality images. By combining OPA with deep learning, we obtain a small depth sensor capable of providing accurate disparity at usable frame rates. Also the ideas in this work can be used in small-baseline stereo systems for short-range depth estimation and multi-baseline stereo to increase the depth range.
OPA(Offset Pixel Aperture) 카메라는 단 한 번의 촬영으로 시차를 추정할 수 있도록 최근 고안되었다. 시차는 이미지의 픽셀을 일정한 거리로 오프셋함으로써 얻어지는데, 기존의 OPA 카메라를 통한 시차 측정은 대응 대조 체계 (correspondence matching scheme)를 이용해왔다. 여기서 나아가 우리는 시차 추정을 개선하기 위해 데이터 지향적으로 접근한 비지도 딥러닝을 적용하였다. 특히 우리는 OPA 카메라에서 매우 작은 베이스라인으로 기울기값이 소실되는 문제를 해결하기 위해 학습 전략에 하나의 간단한 수정을 적용했다. OPA 영상을 좌-우 일관성 검사에 직접 사용할 경우 학습 훈련은 불량한 시차 맵을 초래한다. 훈련 시 카메라의 위치가 바뀐 이미지를 이용하여 정확한 시차 맵을 얻음으로써 OPA 카메라의 성능은 기존에 제안되었던 싱글샷 카메라와 비지도 시차 추정 방법에 비해 크게 향상되었다. 이러한 접근 방식은 단일 NVIDIA 1080 GPU에서 초당 8프레임의 $1024 \times 512$ OPA 영상을 제공한다. 통제된 환경에서 추정되는 기존의 접근 방식과 달리, 본 논문은 실생활 센서와 저품질 영상을 이용해 시차를 추정하는 딥러닝 기술의 효용성을 보여준다. OPA와 딥러닝 기술을 결합하여 우리는 유용한 프레임률에서 정확한 시차를 측정하여 제공할 수 있는 작은 깊이 센서를 확보하였다. 나아가 본 과제의 아이디어는 단일-베이스라인 스테레오 체계에 적용하여 확장된 깊이 범위를 가진 단거리 깊이 추정과 다중-베이스라인 스테레오 시스템에 기여할 수 있다.