Most existing deep learning-based depth and optical flow estimation methods require the supervision of a lot of ground truth data, and hardly generalize to video frames, resulting in temporal inconsistency (flickering). In this paper, I propose a joint framework that estimates disparity and optical flow of stereo videos and generalizes across various video frames by considering the spatiotemporal relation between the estimated disparity and flow without supervision. To improve both accuracy and consistency, I propose a loop consistency loss which enforces the spatiotemporal consistency of the estimated disparity and optical flow. Furthermore, I introduce a video-based training scheme using the convolutional Long Short-Term Memory (c-LSTM) to reinforce the temporal consistency. Extensive experiments show proposed methods not only estimate disparity and optical flow accurately but also further improve spatiotemporal consistency. This framework outperforms the current state-of-the-art unsupervised depth and optical flow estimation models on the KITTI benchmark dataset.
대부분의 기존 딥 러닝 기반 스테레오 깊이 및 광류 흐름 추정 방법의 대부분은 지도학습 방법입니다. 하지만, 이러한 지도학습기반 방법론은 비디오 프레임에서 일반화되지 않아 시간축 비일관성(깜박임 현상)이 발생합니다. 본 논문에서는 스테레오 비디오의 깊이 및 광류 흐름을 추정하고 추정된 깊이와 비지도 학습기반 광류 흐름 사이의 시공간 관계를 고려하여 다양한 비디오 프레임에서 일반화할 수 있는 연구를 제안합니다. 정확성과 일관성을 향상시키기 위해, 스테레오 비디오의 추정된 시차와 광학적 흐름의 시공간적 일관성을 이용한 루프 일관성 손실함수를 제안합니다. 또한 시간적 일관성을 강화하기 위해 c-LSTM (convolutional Long ShortTerm Memory)를 사용하는 비디오 기반 트레이닝 방법론을 적용합니다. 실험적 검증을 통해 본 연구는 시차 및 광학 흐름을 정확하게 추정 할뿐만 아니라 시공간 일관성을 더욱 향상시키는 제안 된 방법을 보여주었습니다. 본 연구는 KITTI 벤치마크 데이터 셋에서 현존하는 최첨단 비지도학습기반 깊이 및 광학 흐름 추정 모델보다 우수합니다.