We propose an accurate depth inference of multi-view stereo using deep neural network, which aims to compute accurate depths on both fine structures and overall scene. Inspired by learning-based approach of plane sweeping algorithm, we design Deep Neural Networks (DNN) targeting both preserving sharp boundaries and inferring reasonable depths even in homogeneous texture regions. Our main contributions to achieve the goal is design of separate patch matching network depending on their tasks by arranging local and global patch matching in parallel, and also reducing the memory consumption and inference time into half while maintaining the performance. We trained our network using well-known MVS benchmarks, and validated our performance on ETH3D benchmark, which revealed that ours showed more accurate depth prediction compared to state-of-the-art learning-based multi-view stereo algorithms. As a result, our system enables high-quality depth predictions, which possibly leads to denser and more precise 3D dense reconstruction.
본 논문에서는 세밀한 구조물을 비롯한 전체적인 장면에 대한 정확한 깊이값을 추정하기 위해 심층 신경망을 활용한 다중 시점 스테레오의 정확한 깊이값 추정 방법에 대해 제안하였다. 평면 스위핑 알고리즘(plane sweeping algorithm)의 학습 기반 접근 방법을 토대로, 세부적인 경계면 부분을 보존하면서 텍스쳐가 거의 없는 구역에 대해서도 정확한 깊이값을 추정하기 위한 심층신경망을 설계하였다. 이와 같은 목표를 달성하기 위해 본 논문에서 제시한 주요 차별점은 지역적, 전체적 패치 매칭 네트워크를 병렬로 배치하여 각기 목적에 맞게 동작하도록 설계한 것과, 기존의 성능을 유지하면서도 메모리 사용량과 깊이값 추정 시간을 절반으로 줄였다는 것이다. 제안된 네트워크는 널리 사용되는 다중 시점 스테레오 데이터셋을 사용하여 학습시켰으며, ETH3D 데이터셋으로 성능을 평가하였을 때 제안된 네트워크가 가장 최신의 학습 기반 다중 시점 스테레오 알고리즘보다 더 높은 정확도를 보이는 것을 확인하였다. 결과적으로, 제안된 시스템은 고품질의 깊이값 추정을 가능하게 하며, 이로부터 조밀하고 정밀한 3D 재건을 가능하게 한다.