One of the main challenges in LiDAR-based 3D object detection is that the sensors often fail to capture the complete spatial information about the objects due to long distance and occlusion. Two-stage detectors with point cloud completion approaches tackle this problem by adding more points to the regions of interest (RoIs) with a pre-trained network. However, these methods generate dense point clouds of objects for all region proposals, assuming that objects always exist in the RoIs. This leads to the indiscriminate point generation for incorrect proposals as well. Motivated by this, we propose Point Generation R-CNN (PG-RCNN), a novel end-to-end detector that generates semantic surface points of foreground objects for accurate detection. Our method uses a jointly trained RoI point generation module to process the contextual information of RoIs and estimate the complete shape and displacement of foreground objects. For every generated point, PG-RCNN assigns a semantic feature that indicates the estimated foreground probability. Extensive experiments show that the point clouds generated by our method provide geometrically and semantically rich information for refining false positive and misaligned proposals. PG-RCNN achieves competitive performance on the KITTI benchmark, with significantly fewer parameters than state-of-the-art models.
LiDAR 기반 3D 객체 검출은 물체의 먼 거리 및 가려짐으로 인해 센서가 종종 물체의 완전한 공간 정보를 포착하지 못한다는 문제가 있다. 기존의 포인트 완성 방법을 활용하는 2단계 검출 모델들은 이러한 문제를 극복하기 위해 관심 영역에 사전 훈련된 네트워크를 통해 포인트를 추가한다. 그러나 이러한 방법은 모든 관심 영역 내에 물체가 존재한다고 가정하고 조밀한 포인트 운집을 생성하므로 잘못된 제안에 대해서도 비구분적으로 포인트를 생성하는 문제가 발생한다. 따라서, 우리는 전경 물체의 의미론적 표면 포인트를 생성하는 혁신적인 포인트 생성 기반 객체 검출 모델(PG-RCNN)을 제안한다. 우리의 방법은 관심 영역 포인트 생성 모듈을 동시에 훈련하여 관심 영역의 맥락 정보를 처리하고 전경 물체의 완전한 형태와 위치를 추정한다. 생성된 각 포인트에 대해 PG-RCNN은 전경 확률을 나타내는 의미론적 특징을 할당한다. 다양한 실험 결과, 우리의 방법을 통해 생성된 포인트들은 거짓 양성 및 부정확한 제안을 보정하기 위한 기하학적 및 의미론적 정보를 풍부하게 제공한다. PG-RCNN은 최신 모델보다 훨씬 적은 매개변수로 KITTI 데이터에서 경쟁력 있는 성능을 달성한다.