서지주요정보
Self-supervised 3D geometric perception in adverse real-world environments = 불리한 실환경에서의 자기 감독 학습 기반 3D 기하학적 인지 방법론
서명 / 저자 Self-supervised 3D geometric perception in adverse real-world environments = 불리한 실환경에서의 자기 감독 학습 기반 3D 기하학적 인지 방법론 / Ukcheol Shin.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041569

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23090

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation aims to make intelligent robots possess a robust geometric perception ability under various challenging real-world environments, such as rainy, snowy, foggy, dusty, over-exposed, and low-lighted conditions. Furthermore, in such harsh environments, we cannot collect Ground-Truth labels, such as dense depth maps, precise odometry, and optical flow. To achieve robust geometric perception ability without GT labels, my research proposes 1) a unified monocular-stereo depth network for the thermal image along with a large-scale multi-spectral dataset, 2) various self-supervised 3D geometry learning methods with various sensor modalities (e.g., RGB and thermal cameras), and 3) a multi-spectrum invariant and selectively-fusible depth estimation method. First, we propose a unified monocular-stereo depth estimation network for thermal images and a large-scale multi-spectral stereo seasonal (M&S^3$) dataset, including RGB, NIR, thermal, and LiDAR stereo system. Thermal camera are known to be robust against lighting and weather condition. However, despite the advantage, there is no large-scale dataset and research for geometric perception from thermal images. Therefore, in this research, we provide 1) a large-scale multi-sensor outdoor dataset, 2) exhaustively analyze the performance and robustness of monocular and stereo depth estimation from thermal images in various conditions (e.g., day, night, cloudy, and rainy), and 3) a unified depth network designed for thermal image showing high accuracy and flexibility. Second, we present various self-supervised learning methods for depth and ego-motion estimation from thermal images. Usually, we cannot guarantee Ground-Truth labels to train geometric perception networks in harsh weather, locational, and lighting conditions, such as cave, tunnel, dusty, and low-lighted conditions. Therefore, we need to train the networks in a self-supervised manner. However, in contrast to the robustness of thermal image, thermal image has undesirable image properties to generate self-supervision from image, such as low-contrast, blurry edge, and temporal image inconsistency. Therefore, we resolve the self-supervision issue of thermal image by proposing 1) multi-spectral consistency loss from paired RGB-T images, 2) joint adversarial and self-supervised learning from unpaired RGB-T images, and 3) temporal consistent thermal image mapping method. The former two methods generate self-supervision signals by exploiting RGB image with proposed differentiable forward mapping module and adversarial feature adaptation. On the other hand, method (3) can train the whole network with self-supervision signal from thermal image solely by utilizing the proposed temporal consistent image mapping method. The proposed mapping method resolves the undesirable image properties of thermal image based on an in-depth analysis of raw thermal image. Based on the self-supervised learning methods for thermal images, we demonstrate the network can estimate accurate depth map results from thermal image in challenging conditions. Lastly, we consider geometric perception in-the-wild scenario, which requires both high-level accuracy and robustness against various challenging environments. For this purpose, a common convention is deploying a multi-sensor system. Also, there are two main strategies for utilizing multi-sensor system: sensor-wise inference and multi-sensor fused inference. The former method is flexible but memory-inefficient, unreliable, and vulnerable. In contrast, multi-modal fusion can provide high-level reliability, yet they need a specialized architecture. Therefore, we propose an effective solution for the multi-spectrum generalizable and selectively-fusible depth estimation by exploiting contrastive learning between sensor modalities. Based on the proposed method, a single-depth network can achieve both spectral-invariant and multi-modal fused depth estimation while preserving reliability, memory efficiency, and flexibility.

주변 환경 인지 능력은 로봇과 사람에 있어 가장 중요한 기본 능력 중 하나로, 주변의 상황을 의미론적 및 기하학적으로 파악하고 이해하는 능력을 의미한다. 또한, 이를 기반으로 물체 회피, 경로 계획, 작업 계획, 상호 작용 등을 가능케 하므로 다양한 환경에서도 강인성이 보장되어야하는 핵심 인지 능력이다. 근래 인공지능과 기계 학습의 발달로 인해 환경 인지 능력에서도 많은 성능 향상을 가져왔지만, 종래의 RGB 영상 기반의 기하학적 인식기법들은 비, 눈, 안개, 과노출, 저조도 조건과 같은 적대적 환경에서 급격한 성능 저하를 보이는 문제점을 가진다. 해당 문제를 극복하기 위해 본 학위 논문에서는 적대적 실환경에서의 강인한 기하학적 인지 기능을 위한 방법론들을 제시한다. 특히, 이러한 가혹한 환경에서는 심층신경망의 학습을 위한 정밀한 정답 데이터를 취득 하기 어렵기 때문에 정답 데이터를 필요로 하지 않는 다양한 자기 지도 학습 방법론을 제시한다. 첫째로, RGB, NIR, Thermal, LiDAR 스테레오 시스템 및 GNSS/IMU 센서를 이용해 취득한 대규모 다중 스펙트럼 스테레오 계절(M$S^3$) 데이터 세트를 제시한다. 비, 눈, 안개, 과노출, 저조도 조건 등 적대적 및 악천후 환경에서 각 센서는 각각의 강인성 및 취약성을 가진다. 이 중 열화상 카메라는 조도 및 날씨 조건에 영향을 거의 받지 않는 강인성을 가지고 있다. 그러나 이러한 장점에도 불구하고 열화상을 통한 기하학적 인지에 대한 대규모 데이터셋 및 연구는 전무한 실정이다. 따라서 본 논문에서는 각 센서별 기하학적 인지의 강인성 및 취약성 조사를 위해 다양한 조건 (낮, 밤, 흐림, 비, 눈, 안개, 악천후 등)하에 취득한 대규모 다중 센서 실외 주행 데이터 셋을 제시하고, 또한 다양한 환경 조건에 대항하여 강인하게 깊이 맵을 추정하는 열화상 기반의 깊이 추정 심층 신경망 구조를 제시한다. 둘째로, 열화상 이미지로부터 깊이 및 움직임 추정을 위한 다양한 자기 감독 학습 방법들을 제시한다. 일반적으로 동굴, 터널과 같이 시야를 가리는 먼지, 모래 입자가 다수 존재하며 조명이 약한 환경 혹은 눈, 비, 안개 등과 같은 날씨 조건에서는 심층 신경망의 학습을 위한 정답 데이터의 취득 및 그 정확성을 보장할 수 없기 때문에 별도의 정답 데이터 없이 학습이 가능한 자기 감독 학습 방법론이 필수적이다. 그러나, 열화상 이미지의 경우, 카메라의 특성으로 인한 저대비, 흐릿한 윤곽 등과 같은 바람직하지 않은 이미지 특성을 가지고 있다. 따라서, 이 문제를 해결하기 위해 1) RGB 및 열화상 이미지 쌍간의 기하학적 관계를 활용한 다중 스펙트럼 일관성 조건, 2) RGB 및 열화상 이미지 쌍간의 기하학적 관계가 없는 경우를 위한 적대적 및 자기지도 학습 방법, 3) 열화상 이미지 자체의 학습 신호 향상을 위한 열복사 값 재정렬 방법의 총 세가지 방법론을 제시한다. 이를 통해 정답 데이터 없이 영상 정보만을 활용해 악조건하에서도 스스로 학습하여 강인하게 깊이 및 움직임을 추정함을 보인다. 마지막으로, 다양한 환경에서의 높은 수준의 정확도와 견고성을 위해 다중 센서 기반의 기하학적 인식 방법론을 제시한다. 이때, 다중 센서 시스템을 활용하기 위한 두가지 방법으로 센서별 추론과 다중 센서 융합 추론의 방법이 있다. 전자의 경우, 유연하지만 메모리 비효율적이고 신뢰성이 낮다는 단점이 있다. 반면 후자의 경우, 센서 융합을 통해 높은 수준의 안정성을 제공할 수 있지만 전용의 심층 신경망 구조를 필요로 한다. 이 두가지 방법의 단점을 해결하고 장점만을 극대화하기 위해 다양한 센서 정보간의 공통적인 특성 및 자체적인 특성을 학습할 수 있도록 다중 센서간의 대조 학습 방법론을 제시한다. 이를 통해 다중 스펙트럼 센서에 관계 없이 하나의 심층 신경망으로 일반화하여 사용가능하며 작은 추가 모듈을 통해 센서 융합 또한 가능케 하였다. 제안하는 방법을 기반으로 높은 신뢰성, 메모리 효율성, 유연성을 유지하며 개별 및 센서 융합 기반의 깊이 추정이 가능함을 보인다.

서지기타정보

서지기타정보
청구기호 {DEE 23090
형태사항 xvi, 109 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신욱철
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p.98-105
주제 Artificial intelligence
Self-supervised learning
3D geometry
Adverse condition
Thermal camera
인공지능
자기지도학습
기하학적 인지
적대적 환경
열화상 카메라
센서 융합
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서