3D object detection is a key technology for autonomous driving. The technology is based on the image of the camera or the point cloud of the LiDAR. Usually, LiDAR-based detectors perform better than using images due to their inherent characteristics. However, point clouds also have difficulty in detecting due to limitations such as scarcity and density variations with distance. Therefore, it is believed that the use of multiple sensors, i. e. cameras, and LiDARs, will improve the performance of the detector and enable robust object detection. However, due to the general discrepancy in resolution and viewpoint, a fusion between the camera and the LiDAR is tricky. Furthermore, the performance often deteriorated due to the fusion. Therefore, many studies have transformed and used images to make them only compatible with the point cloud network. Thus, it is difficult to apply the fusion method of the image used in one network to another. In this study, a fusion module that can be used universally for the network using PointNet, a point cloud encoder known for its excellent performance, was designed. In addition, the KITTI Dataset was used to evaluate the performance of the network where the module was attached.
3D 객체 검출은 자율주행을 위한 핵심적인 기술이다. 이는 주로 카메라의 이미지나 라이다의 포인트 클라우드를 기반으로 이루어진다. 일반적으로 라이다 기반의 검출기가 포인트 클라우드의 고유한 특성으로 인해 이미지 기반의 검출기보다 성능이 우수하다. 그러나, 포인트 클라우드도 희소성, 거리에 따른 밀도의 차이 등의 단점으로 인해 검출에 어려움을 겪는다. 따라서, 카메라 및 LiDAR와 같은 다중 센서를 사용하면 검출기의 성능이 향상되고 강인한 객체 검출이 가능할 것으로 여겨진다. 하지만, 해상도와 시점의 차이로 인해 카메라와 퓨전은 쉽지 않다. 또한, 퓨전으로 인해 오히려 성능이 저하되는 경우도 빈번하다. 따라서 많은 연구들이 이미지를 포인트 클라우드 네트워크에 적합하게 변형하여 사용하고 있다. 그 결과로 한 네트워크에서 사용된 이미지의 퓨전 기법을 다른 네트워크에 적용하기 어렵다. 본 연구에서는 성능이 우수한 것으로 알려진 포인트 클라우드 인코더 PointNet에 범용적으로 사용이 가능한 퓨전 모듈을 설계했다. 또, 모듈이 추가된 네트워크를 KITTI Dataset에서 평가하여 성능이 개선됨을 입증하였다.