서지주요정보
Learning monocular depth estimation via selective knowledge distillation of stereo depth estimation = 스트레오 깊이 추정의 선택적 지식 증류를 통한 단안 깊이 추정 학습
서명 / 저자 Learning monocular depth estimation via selective knowledge distillation of stereo depth estimation = 스트레오 깊이 추정의 선택적 지식 증류를 통한 단안 깊이 추정 학습 / Kyeongseob Song.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037068

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MPD 21004

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Monocular depth estimation has been extensively explored based on deep learning, yet its accuracy and generalization ability still lag far behind that of the stereo-based methods. To tackle this, a few recent studies have proposed to supervise the monocular depth estimation network by distilling disparity maps as proxy ground-truths, which are predicted by conventional stereo-based methods (i.e. Semi Global Matching) or pre-trained stereo matching networks. However, these studies naively distill the stereo knowledge without considering the comparative advantages of stereo-based and monocular depth estimation methods. In this paper, I propose to selectively distill the disparity maps for more reliable proxy supervision. Specifically, I first design a decoder (MaskDecoder) that learns two binary masks which are trained to choose optimally between the proxy disparity maps and the estimated depth maps for each pixel. Each binary mask forms new disparity maps that minimize the commonly-used loss functions for self-supervised monocular depth estimation (e.g. image reconstruction loss function and edge-aware smoothness loss function). The learned masks are then fed to another decoder (DepthDecoder) to enforce the estimated depths to learn from only the masked area in the proxy disparity maps. Additionally, a Teacher-Student module is designed to transfer the geometric knowledge of the StereoNet to the MonoNet since the StereoNet extracts features from the stereo image pair while the MonoNet extracts features only from a single image. Ablation studies verify the proposed methods bring more accurate estimation than a baseline model both qualitatively and quantitatively. Furthermore, extensive experiments validate the proposed methods achieve state-of-the-art performance for self- and proxy-supervised monocular depth estimation on the KITTI dataset, even surpassing some of the semi-supervised methods.

딥러닝을 기반으로 한 단안 깊이 추정이 광범위하게 탐구되었지만, 그것의 정확성과 일반화 능력은 여전히 스테레오 기반의 깊이 추정 방법의 정확성과 일반화 능력에 한참 뒤떨어져 있다. 이를 해결하기 위해, 최근 몇몇 연구에서는 전통적인 스테레오 기반의 깊이 추정 방식 (세미 글로벌 매칭)이나 미리 학습된 스테레오 매칭 네트워크로부터 추정된 시차 정보를 대리 참 깊이 정보로 둠으로써 단안 깊이 추정 네트워크를 지도할 것을 제안했다. 하지만 이러한 연구들은 스테레오 기반의 깊이 추정 방식과 단안 깊이 추정 방식의 비교 우위를 전혀 고려하지 않은 채 스테레오 지식을 단순히 증류한다. 본 논문에서는 더 신뢰할 수 있는 대리 지도를 위해 시차 정보를 선택적으로 증류하는 것을 제안한다. 특히, 우선 두개의 이진 마스크를 학습하는 디코더 (마스크 디코더)를 설계하고, 이 디코더는 대리 시차 정보와 추정된 깊이 정보 사이에서 최적의 깊이 정보를 각 픽셀마다 선택하도록 훈련되는 두개의 이진 마스크를 학습한다. 각 이진 마스크는 자기 지도 학습 기반의 단안 깊이 추정에 통상적으로 사용되는 손실 함수 (영상 복원 손실 함수와 가장자리 인식 스무딩 손실 함수)를 최소화하는 가상의 시차 정보를 형성한다. 학습된 마스크들은 다음으로 또 하나의 다른 디코더 (깊이 디코더)로 입력되어 추정된 깊이 정보가 대리 시차 정보의 오직 마스킹된 영역으로부터만 학습하도록 이끈다. 추가적으로, 단 하나의 영상으로부터 깊이를 추정하는 단안 깊이 추정 네트워크와는 달리 스테레오 매칭 네트워크는 스테레오 영상 쌍으로부터 시차를 추정하기때문에, 스테레오 매칭 네트워크가 갖고있는 기하학적인 지식을 단안 깊이 추정 네트워크로 전달하는 교사-학생 모듈을 설계하였다. 제안된 방식들은 기준 모델보다 정성적 및 정량적으로 정확한 깊이 정보를 추정함을 보였고, 광범위한 실험을 통해 자기 지도 및 대리 지도 학습 방식의 단안 깊이 추정 분야에 있어 키티 데이터셋에 대해 높은 정확성을 보임을 확인하는 동시에 준 지도 학습 방식의 단안 깊이 추정 방식들 중 몇 방식을 능가하는 정확성을 보였다.

서지기타정보

서지기타정보
청구기호 {MPD 21004
형태사항 iv, 43 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송경섭
지도교수의 영문표기 : Kuk-Jin Yoon
지도교수의 한글표기 : 윤국진
학위논문 학위논문(석사) - 한국과학기술원 : 미래자동차학제전공,
서지주기 References : p. 36-41
QR CODE qr code