Depth estimation is a research area that focuses on predicting the depth of each pixel in an input image when matched to a 3D space. Research on depth estimation is highly applicable in various fields such as autonomous driving and virtual reality. Particularly in recent years, it has become a crucial study in the field of autonomous driving and robot vision. In this thesis, we propose an effective deep learning method for estimating the depth of images by simultaneously utilizing thermal and RGB images, which are actively studied for enhancing driver and pedestrian safety through automatic pedestrian detection in autonomous driving. In this thesis, we propose the method that complementarily predicts the depth from misaligned thermal and RGB images. Specifically, to utilize consistent information from thermal images captured during nighttime and RGB images representing consistent information during daytime, we propose: (i) feature extraction from misaligned thermal and RGB images and their Cross-fusion module, (ii) a shared encoder and decoder structure for multi-modal image input, and (iii) Multi-objective training strategy for simultaneous supervised training from multi-modal supervision. In particular, we use cross-attention methods to effectively extract features for depth prediction from corresponding positions in misaligned thermal and RGB images. Through various experiments, our proposed method demonstrates its effectiveness, achieving performance improvements of 7%-points and 4%-points, respectively, compared to using only each modal input (thermal or RGB images).
깊이 추정은 입력 영상의 각 픽셀이 3차원 공간에 매칭되었을때의 깊이를 추정하는 연구이다. 영상의 깊이 추정 연구는 자율 주행, 가상 현실 등 다양한 분야에 활용도가 높은 연구이며, 특히 최근에 자율주행 또는 로봇비전 분야에서 매우 중요한 연구이다. 본 학위 논문연구에서는 주로 자율 주행에서 자동 보행자 검출을 통해 운전자 및 보행자의 안전을 제공하기 위해 활발히 연구되고 있는 열 영상과 자연 영상을 동시에 사용하여 영상의 깊이를 추청하는 방법에 대해 효과적인 딥러닝 방법을 제안하였다. 본 연구에서는 주로 자율 주행에서 동시에 입력되는 비 정렬된 열 영상과 자연 영상에 대해 상호 보완적으로 영상의 깊이를 추정하는 방법을 제시하였다. 즉, 열 영상의 일관된 밤 시간에서의 영상 정보 획득이나 자연 영상의 일관된 영상 정보인 낮 영상을 상호 보완적으로 이용하기 위해, 본 연구에서는 (i) 비정렬된 열 영상과 자연 영상의 특징 추출 및 이들의 교차융합 모듈, (ii) 멀티 모달 영상 입력에 대한 공유 인코더 및 디코더 구조, (iii) 멀티 모달에서의 동시 지도 훈련을 위한 다목적 훈련 전략을 제시하였다. 특히, 비정렬 열 영상 및 자연 영상으로부터 대응되는 위치에서의 깊이 예측을 위한 특징을 효과적으로 추출하기 위해 상호 어텐션 방법을 사용하였다. 본 제안 방법은 다양한 실험을 통해 그 효과성을 검증하며, 각각의 모달 입력(열 영상, 자연 영상)만을 사용하는 경우 대비 7%-point와 4%-point의 성능 향상을 얻었다.