서지주요정보
Learning-based visual perception using semantic and geometric priors for autonomous driving = 의미론과 기하학적 사전정보를 활용한 학습 기반 자율주행 시각 인지 기법
서명 / 저자 Learning-based visual perception using semantic and geometric priors for autonomous driving = 의미론과 기하학적 사전정보를 활용한 학습 기반 자율주행 시각 인지 기법 / Seokju Lee.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037947

소장위치/청구기호

학술문화관(문화관) 보존서고

DRE 21003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Humans and robots repeat perception and action control to achieve a given goal. The robot's ability to recognize the surrounding environment is highly dependent on visual perception like humans. The visual perception is majorly classified into semantic and geometric perception depending on its purpose. These two have been considered as important features in securing robustness in applications where safety is the top priority, such as autonomous driving. In this thesis, we analyze the fundamental limitations of vision-based approaches in terms of semantic and geometric tasks, and propose techniques that imitate human's perception processes to overcome the limitations. Specifically, we improve the task performance by learning other task's output as prior knowledge. The contributions of this thesis are as below. First, we introduce a lane and road marking detection and classification technique, which is one of the most basic semantic tasks to implement autonomous driving, and its large-scale dataset. The previous vision-based approaches have a robustness issue of degraded performance at night time and adverse weather conditions. To solve this problem, we propose multi-task networks to detect lane and road markings and predict the position of vanishing points that represent high-level structural knowledge of the driving scene. The proposed method improves the performances of lane and road marking detection under dynamically changing illumination and weather conditions, and those of vanishing point prediction as well. Furthermore, we propose a novel large-scale dataset of traffic lanes, road markings, and vanishing points in various environmental conditions. Second, we present a unified joint training framework that explicitly models the motion of multiple moving objects, ego-motion, and depth in a monocular camera setup without supervision in dynamic environments, such as autonomous driving scenarios. Generally, learning 3D space through monocular videos is based on the Structure-from-Motion algorithm. Briefly, it is a technique of estimating the depth and ego-motion of the camera by using disparities of corresponding pixels in successive frames. To this end, it is assumed that all the captured objects are static and other motions except for the camera are considered as outliers. Here the problem is that, if there are many dynamic objects, it is hard to propagate a consistent supervisory signal for learning depth and to estimate both depth and multiple object motions simultaneously. The proposed technique can effectively solve this problem through object-aware semantic prior knowledge from instance segmentation or object detection tasks. Moreover, we propose an attention mechanism that explicitly disentangles the 3D motions of each dynamic object and ego-motion, and present a novel learning pipeline that interactively combined with the traditional sampling-based algorithm while training neural networks. Finally, we propose a sensor fusion technique for motion-related physical sensors that measure vehicle speed and inertia. Motion data is easily accessible on most vehicles and contains high-level geometric information. The proposed neural networks utilize this motion information as prior knowledge and present the capability to directly manipulate different viewpoints without an explicit geometric transformation. We apply this model to representation learning tasks and show improved performance in semantic segmentation and monocular depth estimation compared to existing methods. The algorithms and methodologies presented in this dissertation are validated and analyzed by various quantitative and qualitative experiments compared with existing algorithms.

사람과 로봇은 주어진 목표를 달성하기 위해 환경 인지와 행동 제어를 반복한다. 로봇의 주변 환경 인식 능력은 사람처럼 시각적 인지에 크게 의존하며, 시각 인지는 목적에 따라 크게 의미론적 인지와 기하학적 인지로 분류된다. 본 학위 논문에서는 영상 기반의 인지 기술이 가지는 근본적인 한계점들을 두 가지 인지 태스크 관점에서 분석하며, 이를 극복하기 위해 사람의 인지과정을 모방한 기법들을 제시한다. 구체적으로, 서로 다른 태스크에서 생성된 정보를 사전정보로 학습에 활용하여 본 태스크의 인식 성능을 개선하는 기법들을 제안한다. 본 학위 논문이 기여한 부분들은 아래와 같다. 첫째, 자율주행을 구현하기 위해 가장 기초가 되는 의미론적 태스크 중 하나인 차선 및 노면 마크 검출 기법 및 대규모 데이터셋에 대해 소개한다. 야간 및 악천후에서 종래의 영상 기반의 인식 기법은 카메라 센서 특성 상 성능이 급격히 떨어지는 문제를 가진다. 제안하는 방법론은 주행 영상의 구조적인 특징을 표현해주는 소실점을 기하학적 사전정보로 학습에 활용해 조도 및 날씨 변화가 동적인 환경에서 차선 및 노면마크의 인식 성능을 일관되게 개선함과 동시에 소실점 검출 성능을 향상시켰다. 나아가 다양한 환경에서의 차선, 노면마크 및 소실점 데이터셋을 새롭게 제안하였다. 둘째, 주행 상황과 같은 동적인 환경에서 단안 카메라 기반의 3차원 공간 및 모션 추론에 대한 학습 기법을 소개한다. 일반적으로 단안 비디오를 통한 3차원 공간 학습은 모션을 통한 3차원 구조복원 알고리즘을 기반으로 한다. 간단히 설명하면, 연속된 프레임 사이에 대응되는 픽셀들의 거리 값들을 통해 카메라의 움직임과 3차원 깊이를 추정하는 방식이다. 이 때, 촬영된 모든 물체들은 정적임을 가정하며, 카메라의 움직임을 제외하고 다른 움직임이 존재하는 영역은 노이즈로 간주된다. 문제는 이러한 동적 영역이 많을 경우, 깊이 추론에 대해 일관된 학습 신호를 생성하지 못하며, 공간 인식과 동적 물체의 움직임을 동시에 추정하지 못하는 단점들이 발생한다. 본 논문에서는 이러한 단안 영상의 모션 인식문제를 물체 단위의 의미론적 사전 정보를 통해 효과적으로 해결할 수 있는 학습 기법을 소개한다. 또한, 어텐션 메커니즘을 통해 카메라와 동적 물체의 움직임을 효과적으로 분리하여 학습할 수 있는 방법을 소개하며, 나아가 인공 신경망을 학습함에 있어 종래의 랜덤 샘플링 기반의 컴퓨터 비전 알고리즘과 유기적으로 결합되어 있는 학습 기법을 새롭게 제안하였다. 마지막으로, 차량에 이미 장착되어 있는 모션과 관련된 물리 센서들(속도 및 관성 측정용)과 단안 카메라 영상의 센서 융합 기법을 소개한다. 모션 정보는 대부분의 차량에서 쉽게 접근 가능하며, 상위 레벨의 풍부한 기하학적 정보들을 포함하고 있다. 제안하는 기법은 모션 정보를 영상 기반 신경망의 사전 정보로 활용하여 영상과 모션의 피쳐 도메인이 일치하도록 학습시킨다. 이러한 모션 임베딩을 통해, 기하학적 시점 조작에 대한 직접 추론이 가능함을 보인다. 즉, 동일한 영상을 입력 받더라도 다른 모션 입력으로 다양한 시점의 영상들을 생성할 수 있다. 제안한 신경망은 표현 학습 기법에 활용하여 의미론적 영상 분할 태스크와 단안 영상 기반 깊이 추정 태스크에서 기존의 방식들 보다 개선된 성능을 보인다. 본 논문에서 제안한 다양한 학습 기반 시각 인지 기법을 통해 동적 주행 환경에서 단안 카메라 기반의 의미론적 그리고 기하학적 인지 태스크에 대한 강인성 확보가 가능함을 보였고, 기존 방법 대비 우수함을 다양한 정량적 및 정성적 실험들로 분석하였다.

서지기타정보

서지기타정보
청구기호 {DRE 21003
형태사항 x, 95 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이석주
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition". IEEE International Conference on Computer Vision, pp.1947-1955(2017)
수록잡지명 : "Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency". AAAI Conference on Artificial Intelligence, pp.1863-1872(2021)
학위논문 학위논문(박사) - 한국과학기술원 : 로봇공학학제전공,
서지주기 References : p. 86-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서