With the recent advances in deep learning, autonomous driving tasks such as depth estimation, 3D object
detection and tracking are also developing. It is very important to precisely measure 3D information
through stereo cameras, depth cameras, LiDAR sensors, and laser sensors for those tasks. However,
not only are the sensors expensive, but the amount of datasets is absolutely insufficient. Therefore, in
this paper, we propose the novel 3D object detection network using only mono images. As a result, we
achieved the highest performance on the KITTI 3D validation set, exceeding the previous study by more
than 10% APBEV . To improve performance, we tried using mono image and 3D LiDAR together, and
recorded the best performance compared to other studies using the same inputs. In addition, through
end-to-end learning of the depth estimation network and the 3D object detection network, absolute depth
scale prediction is possible even with mono-based depth estimation.
최근 딥러닝의 발전으로 깊이 추정, 3D 물체 검출 및 트래킹과 같은 자율 주행 태스크도 진화하고 있다. 이
태스크들을 수행하는 데에 있어서 스테레오 카메라, 깊이 카메라, 라이다 센서, 레이저 센서 등 3D 정보를
정밀하게 측정하는 것이 매우 중요하다. 그러나 센서들의 가격도 비쌀 뿐더러 시중 데이터 셋의 양이 절대적
으로 부족하다. 따라서, 본 학위 논문에서는 오직 모노 이미지만을 이용해 3D 물체를 검출하는 네트워크를
제안한다. 결과적으로, KITTI 3D 검증 데이터 셋에서 기존 연구를 10% APBEV 이상 초과하는 최고 성능을
기록하였다. 성능 향상을 위해 모노 이미지와 3D 라이다를 함께 이용한 경우에도 같은 입력을 사용한 타
연구와 비교해 최고 성능을 기록하였다. 또한 깊이 추정 네트워크와 3D 객체 검출 네트워크의 종단간 학습을
통해 모노 기반 깊이 추정임에도 절대적인 깊이 스케일 예측이 가능하다.