서지주요정보
Multi-modal depth estimation from misaligned thermal and RGB images = 비정렬 열 영상과 자연 영상으로부터의 다중 모달 깊이 추정
서명 / 저자 Multi-modal depth estimation from misaligned thermal and RGB images = 비정렬 열 영상과 자연 영상으로부터의 다중 모달 깊이 추정 / Byeongjun Kwon.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042178

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24066

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Depth estimation is a research area that focuses on predicting the depth of each pixel in an input image when matched to a 3D space. Research on depth estimation is highly applicable in various fields such as autonomous driving and virtual reality. Particularly in recent years, it has become a crucial study in the field of autonomous driving and robot vision. In this thesis, we propose an effective deep learning method for estimating the depth of images by simultaneously utilizing thermal and RGB images, which are actively studied for enhancing driver and pedestrian safety through automatic pedestrian detection in autonomous driving. In this thesis, we propose the method that complementarily predicts the depth from misaligned thermal and RGB images. Specifically, to utilize consistent information from thermal images captured during nighttime and RGB images representing consistent information during daytime, we propose: (i) feature extraction from misaligned thermal and RGB images and their Cross-fusion module, (ii) a shared encoder and decoder structure for multi-modal image input, and (iii) Multi-objective training strategy for simultaneous supervised training from multi-modal supervision. In particular, we use cross-attention methods to effectively extract features for depth prediction from corresponding positions in misaligned thermal and RGB images. Through various experiments, our proposed method demonstrates its effectiveness, achieving performance improvements of 7%-points and 4%-points, respectively, compared to using only each modal input (thermal or RGB images).

깊이 추정은 입력 영상의 각 픽셀이 3차원 공간에 매칭되었을때의 깊이를 추정하는 연구이다. 영상의 깊이 추정 연구는 자율 주행, 가상 현실 등 다양한 분야에 활용도가 높은 연구이며, 특히 최근에 자율주행 또는 로봇비전 분야에서 매우 중요한 연구이다. 본 학위 논문연구에서는 주로 자율 주행에서 자동 보행자 검출을 통해 운전자 및 보행자의 안전을 제공하기 위해 활발히 연구되고 있는 열 영상과 자연 영상을 동시에 사용하여 영상의 깊이를 추청하는 방법에 대해 효과적인 딥러닝 방법을 제안하였다. 본 연구에서는 주로 자율 주행에서 동시에 입력되는 비 정렬된 열 영상과 자연 영상에 대해 상호 보완적으로 영상의 깊이를 추정하는 방법을 제시하였다. 즉, 열 영상의 일관된 밤 시간에서의 영상 정보 획득이나 자연 영상의 일관된 영상 정보인 낮 영상을 상호 보완적으로 이용하기 위해, 본 연구에서는 (i) 비정렬된 열 영상과 자연 영상의 특징 추출 및 이들의 교차융합 모듈, (ii) 멀티 모달 영상 입력에 대한 공유 인코더 및 디코더 구조, (iii) 멀티 모달에서의 동시 지도 훈련을 위한 다목적 훈련 전략을 제시하였다. 특히, 비정렬 열 영상 및 자연 영상으로부터 대응되는 위치에서의 깊이 예측을 위한 특징을 효과적으로 추출하기 위해 상호 어텐션 방법을 사용하였다. 본 제안 방법은 다양한 실험을 통해 그 효과성을 검증하며, 각각의 모달 입력(열 영상, 자연 영상)만을 사용하는 경우 대비 7%-point와 4%-point의 성능 향상을 얻었다.

서지기타정보

서지기타정보
청구기호 {MEE 24066
형태사항 v, 45 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 권병준
지도교수의 영문표기 : Munchurl Kim
지도교수의 한글표기 : 김문철
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 41-43
주제 Depth estimation (DE)
Multi-modal
Misalignment
Robustness
깊이 추정
멀티 모달
비정렬
강인함
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서