Self-supervised monocular depth estimation methods have been proposed to train a depth network without ground-truth since collecting depth annotations requires tremendous effort. The self-supervised methods take advantage of the photometric loss as a main supervision signal to optimize a depth network. However, learning of the depth network is hindered, since the photometric loss is ambiguous in pixels of moving objects and occluded or texture-less regions. To address this problem, we propose a self-distillation method that provides depth consistency as a new supervision signal, which regularizes the depth network. We found that the existing depth network is not robust to distorted input images. Inspired by this observation, we train the depth network with depth consistency so that the depth network is robust to the distortions. The depth network to which our method is applied shows meaningful improvements over the models to which it is not. In addition, we show that our method outperforms the state-of-the-art methods on the KITTI dataset.
깊이맵의 참값을 구하는 과정은 많은 노력을 필요로 하기 때문에, 참값 없이 훈련할 수 있는 자기지도학습 기반의 단안카메라 깊이맵 추정에 관한 연구들이 제안되었다. 그 연구들은 측광학적 손실함수를 주요 학습 신호로 사용하여 깊이맵 네트워크를 최적화한다. 하지만 측광학적 손실함수는 움직이는 물체 혹은 가려지거나 텍스처가 없는 영역에서 모호하기 때문에 학습이 방해를 받는다. 이러한 문제를 해결하기 위해, 이 논문은 자기증류를 활용한 깊이맵 균일성을 새로운 학습 신호로 사용하여 깊이맵 네트워크를 정규화하고자 한다. 이 논문에서 기존의 깊이맵 네트워크는 변형이 가해진 이미지에 강건하지 않음을 발견하였고, 이에 착안하여 입력 이미지의 변형에 강건하도록 깊이맵 균일성을 활용해 깊이맵 네트워크를 학습한다. 이 논문은 최신 깊이맵 네트워크들에 제안한 방법을 적용할 때 유의미한 성능향상을 보임을 확인한다. 또한 제안한 방법이 KITTI 데이터셋에서 기존 최신 논문들보다 높은 성능을 가지는 것을 보인다.