서지주요정보
Towards event-based end-task learning via image reconstruction = 영상 복원을 통한 이벤트 카메라 기반 End-Task 학습 연구
서명 / 저자 Towards event-based end-task learning via image reconstruction = 영상 복원을 통한 이벤트 카메라 기반 End-Task 학습 연구 / Lin Wang.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037974

소장위치/청구기호

학술문화관(문화관) 보존서고

DME 21044

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

This dissertation is concerned with developing end-task learning methodologies using novel camera sensors, especially event cameras, via intelligent imaging from event data in challenging conditions, such as low dynamic range and motion blur. Event cameras are bio-inspired sensors that perceive the intensity changes and output asynchronous event streams. Event cameras exhibit distinct advantages over conventional cameras, such as high dynamic range (HDR), no motion blur. Therefore, event data could be potentially used to tackle challenging vision problems. However, intelligent imaging with event data is distinguished from other modality data by its unique characteristics. First, event data is usually represented as event streams encoding the per-pixel spatial and temporal information, unlike the canonical images. Second, event data predominantly perceive the edges of scenes, rendering them with very sparse outputs. Third, as the output of event cameras are asynchronous event streams, existing vision algorithms can not be directly applied. Although events and images are essentially two distinct modalities, it might be a less optimal solution to learn end-tasks from merely event data while neglect to bridge one to the other. Fourth, compared with the image data, high-quality labeled (per-pixel) event data is scarce and difficult to obtain, thus imposing challenges for end-task learning. Considering the above characteristics, the goal of my research is to develop novel methodologies specialized in intelligent imaging with event data based upon a profound understanding of its nature to better bridge the image data for the purpose of end-task learning. Over the course of my Ph.D. studies, I have pursued research aiming to achieve (1) a proper representation of event data and reconstruct intensity images for end-task task learning, (2) restore better quality images tackling the artifacts induced by the noise of events and enlarging the spatial resolution for end-task learning and (3) bridge image reconstruction approaches with end-task learning. The underlying ideas in my research are encapsulated in the following themes, all of which are focused on developing methodologies for event-based end-task learning via image reconstruction. The research goal is accomplished by two learning strategies: sequential learning and parallel learning. The sequential learning for end-tasks is studied in two approaches, where the end-task learning is based on the generated images from events. In approach 1, a general supervised learning pipeline is proposed to reconstruct intensity images from events based on the conditional generative adversarial network (cGAN). In approach 2, considering existing event cameras are in a low-resolution (LR) and the events and active pixel sensor (APS) frames are noisy and with artifacts, this dissertation strives to jointly reconstruct, restore LR intensity images and generate high-resolution (HR) high-quality intensity images from the LR events via unsupervised adversarial learning. These reconstructed intensity images from approach 1 and approach 2 are applied to learning end-tasks, such as semantic segmentation, object recognition, and object detection. Although sequential learning is effective, they lead to considerable inference latency and less optimal optimization for end-task learning. To overcome the difficulties in sequential learning, approach 3 and approach 4 of this research propose to directly learn from events for end-tasks in parallel with image reconstruction methods developed in approach 1 and approach 2. To better bridge image reconstruction with end-task learning from event data, knowledge distillation (KD) and transfer learning are applied to the end-task learning process. In such a way, the quality of image reconstruction can also be enhanced by the end-tasks via KD losses. And image reconstruction enhances the learning of end-tasks in an end-to-end learning manner. Meanwhile, the feature-level knowledge and prediction-level knowledge are explored to facilitate the end-task learning from events. Such methods lead to no inference latency for learning end-tasks and show more promising results, in especially HDR and blurred conditions.

이 논문은 낮은 동적 범위 및 흐림과 같은 어려운 조건에서 event data의 지능형 이미징 을 통해 새로운 카메라 센서, 특히 이벤트 카메라를 사용하여 end-task 학습 방법론 을 개발하는 것과 관련이 있다. 이벤트 카메라는 강도 변화를 인지하고 비동기 이벤트 스트림을 출력하는 바이오에서 영감을 받은 센서이다. 이벤트 카메라는 HDR(High Dynamic Range)이나 모션 블러(motion blur)가 없는 것과 같은 기존 카메라보다 뚜렷한 이점을 제공합니다. 따라서 이벤트 데이터는 잠재적으로 어려운 비전 문제를 해결하는 데 사용될 수 있다. 그러나 이벤트 데이터가 포함된 지능형 이미징은 고유한 특성으로 다른 촬영장비 데이터와 구별됩니다. 첫째, 이벤트 데이터는 일반적으로 표준 이미지와 달리 픽셀당 공간 및 시간 정보를 인코딩하는 이벤트 스트림으로 표현된다. 둘째, 이벤트 데이터는 씬(scene)의 가장자리를 주로 인식하여 매우 희박한 출력을 제공한다. 셋째, 이벤트 카메라의 출력이 비동기 이벤트 스트림이므로 기존 비전 알고리즘을 직접 적용할 수 없다. 이벤트와 이미지는 본질적으로 두 가지 다른 형식이지만, 하나의 항목을 다른 항목과 연결하는 것은 소홀히 하면서 단순한 이벤트 데이터로부터 최종 결과를 학습하는 것이 덜 최적의 솔루션일 수 있다. 넷째, 이미지 데이터와 비교할 때 고품질 레이블링(픽셀당) 이벤트 데이터가 부족하고 얻기 어려워 최종 작업 학습에 어려움이 따른다. 위의 특성을 고려하여 내 연구의 목표는 이미지 데이터 end-task 학습을 목적으로를 더 잘 연결하기 위해 그 특성에 대한 깊은 이해를 바탕으로 이벤트 데이터로 지능형 이미징에 특화된 새로운 방법론을 개발하는 것이다. 박사 과정 연구 동안, 나는 (1) event 데이터의 적절한 표현을 달성하고 최종 작업 학습을 위한 강도 이미지를 재구성하는 것을 목표로 하는 연구를 추구해 왔다. (2) event 잡음으로 유도된 아티팩트를 처리하고 최종 작업 학습을 위한 공간 해상도를 확대하고 (3) end-task과 함께 연결할 수 있는 이미지 재구성 방식을 확대한다. 내 연구의 기본 아이디어는 다음 테마에 캡슐화되어 있으며, 모두 이미지 재구성을 통한 이벤트 기반 end-task 학습을 위한 방법론을 개발하는 데 초점을 맞추고 있다. 1단계에서는 조건부 생성 적대적 네트워크(cGAN)를 기반으로 이벤트로부터 강도 영상을 재구성하기 위한 일반 감독 학습 파이프라인이 제안된다. 2단계에서는 기존 이벤트 카메라가 저해상도(LR)에 있고 이벤트 및 활성 픽셀 센서(APS) 프레임이 노이즈가 있고 아티팩트가 있다는 점을 고려하여 본 논문은 감독되지 않은 적대 관계를 통해 LR 이벤트에서 고해상도(HR) 고품질 이미지를 공동으로 재구성, 복원 및 생성하려고 노력한다.아닝 어프로치 이러한 재구성된 영상은 의미 분할, 객체 인식 및 객체 감지와 같은 최종 작업을 학습하는 데 사용된다. 위의 두 가지 방법은 최종 작업 학습이 이벤트에서 생성된 이미지를 기반으로 하는 순차 학습 방식을 따른다. 이러한 방법은 효과적이지만, 추론 지연 시간이 상당하고 최종 작업 학습에 대한 최적 최적화는 떨어진다. 3단계와 4단계에서 이 연구는 1단계와 2단계를 기반으로 구축된 이미지 재구성 방법과 병행하여 최종 작업에 대한 이벤트에서 직접 학습할 것을 제안한다. 이벤트 데이터에서 엔드 태스크 학습을 통해 이미지 재구성을 더 잘 연결하기 위해 엔드 태스크 학습 프로세스에 지식 증류(KD) 및 전이 학습을 적용한다. 이러한 방식으로 KD 손실을 통해 최종 작업에 의해 영상 재구성 품질도 향상될 수 있다. 그리고 이미지 재구성은 엔드 투 엔드 학습 방식으로 엔드 투 엔드 작업의 학습을 향상시킨다. 한편, 이벤트에서 최종 작업 학습을 용이하게 하기 위해 특징 수준 지식과 예측 수준 지식을 탐구한다. 이러한 방법은 최종 작업을 학습하는 데 추론 지연 시간을 갖지 않고 특히 HDR과 흐릿한 조건에서 더 유망한 결과를 보여준다.

서지기타정보

서지기타정보
청구기호 {DME 21044
형태사항 xi, 129 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 왕 림
지도교수의 영문표기 : Kuk-Jin Yoon
지도교수의 한글표기 : 윤국진
학위논문 학위논문(박사) - 한국과학기술원 : 기계공학과,
서지주기 References : p. 112-125
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서