서지주요정보
Robust holistic scene understanding via multi-task learning and sensor fusion = 다중 작업 학습을 및 센서 융합 통한 강인한 전체론적 장면 이해
서명 / 저자 Robust holistic scene understanding via multi-task learning and sensor fusion = 다중 작업 학습을 및 센서 융합 통한 강인한 전체론적 장면 이해 / Pranjay Shyam.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039470

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DME 22042

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Accurate mathematical modeling of the surrounding environment plays a vital role in the safe operation of unmanned systems such as autonomous vehicles, mobile, and aerial robotics. Such modeling of dynamic scenes can be performed using centralized or distributed sensor systems, with the expectation to provide accurate attribute representation in diverse weather conditions. Given these constraints, modern sensor systems leverage LIDAR, RADAR, and Visible spectrum cameras to capture and represent different scene properties. Subsequently, data-driven approaches are utilized to process these raw measurements and extract complex patterns represented as high-level attributes. Such high-level features include object detection, semantic and road marking segmentation, depth estimation, and multi-object tracking. These attributes are then aggregated to provide a holistic scene understanding based on which path planning and control can be performed to ensure safe operation. However, current approaches for holistic scene understanding utilize multiple task-specific algorithms, resulting in a computationally expensive solution on account of increased redundant computations. Furthermore, these task-specific algorithms are sensitive to domain gaps arising from varying sensor properties or configurations. As construction of a sensor stack is based on the requirements of the end application. E.g., a mobile robot would require a short-range wide field of view (FoV) surround perception. At the same time, adaptive cruise control within an autonomous vehicle or ADAS would also require long-range forward perception with a narrow FoV. Hence, a well-annotated training dataset is required for each new sensor stack or domain, which is prohibitively expensive. This dissertation focuses on performing holistic scene understanding for autonomous vehicles using heterogeneous sensor systems where calibration parameters are known. We define holistic scene understanding as estimating attributes such as road markers and unique object instances in a 3D space. Towards this objective, we highlight standard perception systems to either focus on the surround or long-range forward perception using a ring-camera or stereo-camera apart from sensors such as RADAR and LIDAR. Given the strengths of different sensors, combining signals from these multi-modal sensors is beneficial to provide the necessary robustness for different scenarios. However, due to incompatibility in the signal output, it cannot be directly aggregated. Therefore, we propose a two-stage mechanism to simultaneously solve the issue of multi-modal data fusion while extracting meaningful information. The first mechanism focuses on extracting attributes using cameras into point-cloud space. Following this, we integrate different sensor signals into point-cloud space and perform downstream perception tasks such as 3D Object Detection. As vision sensors are widely used as primary sensors due to their ability to densely capture scene information, we focus on devising resource friendly algorithms to extract different scene attributes such as scene semantics, road attributes, object detections, etc. To ensure extraction of these attributes without excessive computational overhead, we propose utilizing Multi-Task (MT) Networks. While such an approach is theoretically sound, the practical performance of any data-driven system relies upon the quality of training data, which, while playing a critical role, is usually overlooked. In addition, one caveat of using the multi-task framework is the availability of task-specific ground truth per input. However, current state-of-the-art (SoTA) primarily comprises multiple task-specific datasets focusing on distinct operating conditions and tasks. Furthermore, as each dataset source has a non-identical sensor setup, these cannot be directly used in a multi-task setting. Thus to overcome this critical requirement of well-annotated datasets, we develop domain invariant task-specific networks that can provide high-quality pseudo ground truth labels for training the deep-learning-based multi-task algorithm. Hence we can summarize the contributions of this dissertation as follows, • We propose a multi-modal multi-task pipeline for performing holistic scene understanding generalizable to a wide variety of sensor configurations. • We demonstrate that such a pipeline is computationally efficient and robust to different weather variations compared to task-specific networks. • To ensure optimal training without requiring additional annotated labels, we develop different domain in- variant approaches that can be utilized to provide pseudo ground truth labels. • To improve the performance of the MT network further, we propose a blind image restoration algorithm to restore regions within images that are affected by weather variations. • Finally, we validate the performance and robustness of the proposed framework on publicly available datasets for downstream 3D perception tasks such as Object Detection.

주변 환경에 대한 정확한 수학적 모델링은 자율주행차, 모바일 및 항공 로봇과 같은 무인 시스템의 안전한 작동에 중요한 역할을 합니다. 이러한 동적 장면 모델링은 다양한 기상 조건에서 정확한 속성 표현을 제공할 것으로 기대하면서 중앙 집중식 또는 분산형 센서 시스템을 사용하여 수행할 수 있습니다. 이러한 제약 조건을 감안할 때 최신 센서 시스템은 LIDAR, RADAR 및 가시 스펙트럼 카메라를 활용하여 다양한 장면 속성을 캡처하고 나타냅니다. 그 후 데이터 기반 접근 방식을 사용하여 이러한 원시 측정을 처리하고 상위 수준 속성으로 표시되는 복잡한 패턴을 추출합니다. 이러한 고급 기능에는 객체 감지, 의미론적 및 도로 표시 세분화, 깊이 추정 및 다중 객체 추적. 그런 다음 이러한 속성을 집계하여 안전한 작동을 보장하기 위해 수행할 수 있는 경로 계획 및 제어를 기반으로 전체적인 장면 이해를 제공합니다. 그러나 전체적인 장면 이해를 위한 현재 접근 방식은 여러 작업별 알고리즘을 사용하므로 중복 계산이 증가하여 계산 비용이 많이 드는 솔루션이 됩니다. 또한 이러한 작업별 알고리즘은 다양한 센서 속성 또는 구성에서 발생하는 도메인 간격에 민감합니다. 센서 스택의 구성은 최종 애플리케이션의 요구 사항을 기반으로 합니다. 예를 들어, 모바일 로봇은 근거리 넓은 시야(FoV) 서라운드 인식이 필요합니다. 동시에 자율 주행 차량 또는 ADAS 내의 적응형 크루즈 컨트롤은 좁은 FoV로 장거리 전방 인식을 필요로 합니다. 따라서 각 새로운 센서 스택 또는 도메인에 대해 주석이 잘 달린 훈련 데이터 세트가 필요하며 이는 엄청나게 비쌉니다. 이 논문은 보정 매개변수가 알려진 이기종 센서 시스템을 사용하여 자율 주행 차량에 대한 전체적인 장면 이해를 수행하는 데 중점을 둡니다. 우리는 전체적인 장면 이해를 3D 공간에서 도로 마커 및 고유한 개체 인스턴스와 같은 속성을 추정하는 것으로 정의합니다. 이 목표를 위해 링 카메라를 사용하여 서라운드 또는 장거리 전방 인식에 초점을 맞추는 표준 인식 시스템을 강조합니다. 또는 RADAR 및 LIDAR와 같은 센서와 별도로 스테레오 카메라. 다양한 센서의 강점을 감안할 때 이러한 다중 모드 센서의 신호를 결합하면 다양한 시나리오에 필요한 견고성을 제공하는 데 도움이 됩니다. 그러나 신호 출력의 비호환성으로 인해 직접 집계할 수 없습니다. 따라서 의미 있는 정보를 추출하는 동시에 다중 모드 데이터 융합 문제를 해결하기 위한 2단계 메커니즘을 제안합니다. 첫 번째 메커니즘은 카메라를 사용하여 포인트 클라우드 공간으로 속성을 추출하는 데 중점을 둡니다. 그 다음에는 서로 다른 센서 신호를 포인트 클라우드 공간에 통합하고 3D 물체 감지와 같은 다운스트림 인식 작업을 수행합니다. 비전 센서는 장면 정보를 조밀하게 캡처할 수 있는 능력으로 인해 기본 센서로 널리 사용되기 때문에 장면 의미, 도로 속성, 물체 감지 등과 같은 다양한 장면 속성을 추출하기 위해 자원 친화적인 알고리즘을 고안하는 데 중점을 둡니다. 이러한 속성의 추출을 보장하기 위해 과도한 계산 오버헤드 없이 MT(Multi-Task) 네트워크 활용을 제안합니다. 이러한 접근 방식은 이론적으로 타당하지만 데이터 기반 시스템의 실제 성능은 교육 데이터의 품질에 의존하며, 이는 중요한 역할을 하지만 일반적으로 간과됩니다. 또한 다중 작업 프레임워크를 사용할 때 주의해야 할 점은 입력당 작업별 정답을 사용할 수 있다는 것입니다. 그러나 현재의 최신 기술(SoTA)은 주로 고유한 작동 조건 및 작업에 중점을 둔 여러 작업별 데이터 세트로 구성됩니다. 또한 각 데이터 세트 소스에는 동일하지 않은 센서 설정이 있으므로 다중 작업 설정에서 직접 사용할 수 없습니다. 따라서 주석이 잘 달린 데이터 세트의 이러한 중요한 요구 사항을 극복하기 위해 딥 러닝 기반 다중 작업 알고리즘을 훈련하기 위한 고품질 의사 정답 레이블을 제공할 수 있는 도메인 불변 작업별 네트워크를 개발합니다. 따라서 이 논문의 기여를 다음과 같이 요약할 수 있다. • 일반화할 수 있는 전체적인 장면 이해를 수행하기 위한 다중 모드 다중 작업 파이프라인을 제안합니다. 다양한 센서 구성. • 우리는 그러한 파이프라인이 계산적으로 효율적이고 다양한 날씨 변화에 대해 견고함을 보여줍니다. 작업별 네트워크와 비교합니다. • 추가 주석 레이블이 필요하지 않은 최적의 교육을 보장하기 위해 다른 도메인을 개발합니다. 유사 정답 레이블을 제공하는 데 사용할 수 있는 다양한 접근 방식. • MT 네트워크의 성능을 더욱 향상시키기 위해 블라인드 이미지 복원 알고리즘을 제안합니다. 날씨 변화의 영향을 받는 이미지 내의 영역을 복원합니다. • 마지막으로 공개적으로 사용 가능한 프레임워크에서 제안된 프레임워크의 성능과 견고성을 검증합니다. 객체 감지와 같은 다운스트림 3D 인식 작업을 위한 데이터세트입니다.

서지기타정보

서지기타정보
청구기호 {DME 22042
형태사항 ix, 131 p.: 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 샴 프랜제이
지도교수의 영문표기 : Kyung-Soo Kim
지도교수의 한글표기 : 김경수
공동지도교수의 영문표기 : Kuk-Jin Yoon
공동지도교수의 한글표기 : 윤국진
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 110-131
주제 Holistic Scene Understanding
Multi-Task Learning
Blind Image Enhancement
Sensor Fusion
전체적인 장면 이해
다중 작업 학습
블라인드 이미지 향상
센서 융합
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서