Self-supervised monocular depth estimation has emerged as a promising method because it does not require groundtruth depth maps during training. As an alternative for the groundtruth depth map, the photometric loss enables to provide self-supervision on depth prediction by matching the input image frames. However, the photometric loss causes various problems, resulting in less accurate depth values compared with supervised approaches. In this paper, we propose SAFENet that is designed to leverage semantic information to overcome the limitations of the photometric loss. Our key idea is to exploit semantic-aware depth features that integrate the semantic and geometric knowledge. Therefore, we introduce multi-task learning schemes to incorporate semantic-awareness into the representation of depth features. Experiments on KITTI dataset demonstrate that our methods compete or even outperform the state-of-the-art methods. Furthermore, extensive experiments on different datasets show its better generalization ability and robustness to various conditions, such as low-light or adverse weather.
자가지도 단안 깊이 추정은 학습 중에 정답 깊이 맵이 필요하지 않기 때문에 유망한 방법으로 등장했다. 정답 깊이 맵의 대안으로, 광도 측정 손실은 입력 이미지 프레임들을 일치시켜 깊이 예측에 대한 자체 감독을 제공 할 수 있다. 그러나 광도 측정 손실은 다양한 문제가 발생시키고, 감독 방식에 비해 깊이 값이 정확하지 못하다. 본 논문에서는 광도 측정 손실의 한계를 극복하기 위하여 의미론적 정보를 활용하도록 설계된 SAFENet을 제안한다. 우리의 핵심 아이디어는 의미론적 특성 및 기하학적 지식을 통합하는 의미 인식 깊이 특징을 활용한다. 따라서, 깊이 특징 표현에 의미 인식을 통합하기 위하여 다중 작업 학습 체계를 도입한다. KITTI 데이터 세트에 대한 실험은 우리의 방법이 최첨단 방법과 비등하거나 심지어 우세함을 보인다. 또한, 다양한 데이터셋에 대한 광범위한 실험은 저조도 또는 악천후와 같은 다양한 조건에 대해 더 나은 일반화 능력과 견고성을 가질 수 있음을 보인다.