서지주요정보
Learning based adaptive visual sensor fusion for robust pedestrian detection = 강인한 보행자 검출을 위한 학습 기반 적응적 시각 센서 융합 기법
서명 / 저자 Learning based adaptive visual sensor fusion for robust pedestrian detection = 강인한 보행자 검출을 위한 학습 기반 적응적 시각 센서 융합 기법 / Soonmin Hwang.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033363

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19044

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the great success of deep neural network, machine learning and computer vision technologies, the era of autonomous driving which is the most promising application of intelligent systems has been advanced. For safety-critical application such as autonomous driving, robustness to rare/unexpected cases is an important issue in practice. One of the promising way for this issue is to use multiple sensors since heterogeneous sensors observe a scene in a different perspective so that the possibility to get useful information to perceive the world could be increased. However, the uniqueness causes difficulty to integrate the information properly. In this dissertation, we cover the whole process of heterogeneous visual sensor fusion from building a multi-sensor system to perception algorithm. The contributions of this dissertation are as follows. First, we use color images and 3D points from LiDAR since the correspondence could be calculated by sensor calibration. We propose an efficient framework for multiple object detection. For real-time performance, we effectively utilize both 2D/3D information at object proposal stage consisting of removing out-of-interest regions, clustering, and proposal generation steps. Then we apply modality-specific algorithms to each modality to consider both uniqueness and correlation between heterogeneous information. Our method improves the overall detection performance by successfully detecting challenging cases which might be difficult by using a single modality. Second, we use heterogeneous cameras to capture different wavelength of light. We propose a solution to solve the correspondence/alignment of heterogeneous images by a beam-splitter based hardware system. Using this system, we get aligned image pairs easily and show that the pedestrian detection performance could be significantly improved at day and night. We analyze the usefulness of the aligned thermal information in terms of discriminative power and propose the multispectral ACF(aggregated channel features) to improve the detection performance. We make our benchmark publicly available to encourage the researches for robust pedestrian detection. Our benchmark offers an opportunity for many novel tasks from learning a better representation for deep neural network to a novel cross-modality transformation, i.e. color-to-thermal and thermal-to-color transformation. Finally, we propose a novel module for deep neural network so that we achieve the performance improvement in normal imaging condition and alleviate performance degradation on abnormal image conditions. Our key idea which is somewhat similar to the philosophy of transfer learning is to change a small number of parameters in the trained neural network. Despite the fixation of trained weights in most of neural networks, we make the fusion parameters, i.e. a small number of parameters in our network, changeable conditioned on the input images. In other words, we propose a scene-adaptive fusion module to inject a flexible characteristic to our networks which predict kernel and bias for convolution layer based on the correlation between low-level features from both the modalities. We show that the predicted parameters from our module form a semantic distribution depending on the current input imaging quality. Our method is trained without seeing failure cases explicitly and achieves the performance improvement from our strong baseline method that is competitive performance with state-of-the-art methods in various normal/abnormal imaging conditions.

딥러닝을 비롯한 기계학습 및 컴퓨터비전 기술의 급격한 발전은 지능형 시스템의 가장 대표적인 사례인 자율주행의 시대를 크게 앞당겨 나가고 있다. 자율주행과 같이 안전이 중요한 화두가 되는 응용에서는 인지 알고리즘의 성능 뿐만 아니라 드물에 발생하거나 예측하기 어려운 다양한 상황에서의 강인성 확보가 매우 중요한 문제이다. 이런 상황에 대처하는 방법 중 하나는 다양한 종류의 센서 정보를 융합하는 것인데, 이는 서로 다른 센서들로부터 주변 상황 인지에 도움이 될 수 있는 정보를 획득할 가능성을 높이기 때문이다. 그러나 이러한 정보들은 그 고유함으로 인하여 정보들을 적절하게 결합하는데 어려움을 초래한다. 본 학위 논문에서는 이종 시각 센서들 간의 대응 관계 문제를 해결하고 효과적으로 정보들을 결합하기 위하여 센서 시스템 제작부터 알고리즘에 이르기까지의 전 과정을 다룬다. 본 학위 논문이 기여한 부분들은 다음과 같다. 첫째, 물체 검출을 위하여 센서 캘리브레이션을 통하여 대응관계를 상대적으로 쉽게 구할 수 있는 컬러 영상과 LiDAR로부터 획득한 3D 정보를 효과적으로 결합하는 프레임워크를 제안하였다. 실시간성을 달성하기 위하여 관심 영역이 아닌 데이터를 효율적으로 제거, 군집화, 물체 후보 영역 추출 단계에서 두 정보를 함께 효율적으로 활용하고 이후 단계에서는 각각의 정보에 따라 다른 알고리즘을 적용한 후에 결합함으로서, 각 정보의 고유성과 상관관계를 동시에 고려하였다. 제안하는 방법론은 영상 또는 LiDAR 정보만으로는 인지하기 어려운 경우에 대해서도 검출에 성공함으로서 전체적인 물체 검출 성능을 개선하였다. 둘째, 정확한 보행자 검출을 위하여 다른 파장대역의 카메라들을 활용하였다. 즉, 알고리즘으로 해결하기 어려운 문제인 이종 영상 정렬 문제를 시스템을 통하여 해결함으로써 이종 영상 정보 결합을 쉽게 수행할 수 있고, 이를 통하여 보행자 검출 성능을 밤/낮에 관계없이 큰 폭으로 개선할 수 있음을 보였다. 제안한 시스템을 통해 획득한 정렬된 열화상 영상 정보의 유용성을 분석하고, 다중파장 집합채널 특징량을 제안함으로써 성능을 개선하였다. 이 시스템을 이용하여 구축한 보행자 검출 벤치마크를 공개함으로써 주/야간 보행자 검출 성능 향상을 위한 연구를 장려하였고, 인공신경망을 위한 더 좋은 표현을 학습하도록 하는 것에서부터 다중 파장 간 영상 변환 학습 등 새로운 연구를 위한 기회를 제공하였다. 마지막으로, 컬러 영상과 열화상 영상 결합을 위한 새로운 딥러닝 구조를 제안함으로써 정상 상황에서의 성능 개선 및 다양한 센서 고장 상황에서의 성능 저하를 크게 개선하였다. 본 연구의 핵심 아이디어는 전이 학습의 철학과 같이, 기존에 학습된 컬러 및 열화상 영상으로부터 보행자를 검출하는 인공신경망의 일부만을 변화시키는 것이다. 기존의 많은 알고리즘들이 학습이 끝나면 인공신경망의 매개변수들이 변하지 않는것과 달리, 본 연구에서는 두 정보의 결합을 입력 영상에 따라 다르게 수행하였다. 즉, 이종 영상의 특징량 상관관계에 기반한 적응적 매개 변수 추정을 통하여 보다 유연한 방식으로 보행자를 검출하고, 제안된 구조를 통해서 추정된 인공신경망의 매개변수가 입력 영상의 상태에 따라서 다른 분포를 보임을 확인하였다. 본 연구에서 제안한 적응적 결합 및 고장에 강인한 훈련 방법을 통하여 고장 상황에 대한 명시적인 학습 없이도, 예상하지 못한 다양한 상황에 대하여 인공신경망을 이용한 강인성 확보가 가능함을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 19044
형태사항 vii, 82 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 황순민
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "Multispectral Pedestrian Detection: Benchmark Dataset and Baselines". Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, pp.1037-1045(2015)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 74-80
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서