Deep learning-based pedestrian detectors are now being used in various applications, including surveillance cameras and autonomous vehicles. However, the lack of generalizability of pedestrian detectors remains a problem. Recently, it has been shown that utilizing the knowledge of large-scale models on pedestrian detection can improve the generalizability of pedestrian detectors. However, the current method uses only a single pedestrian dataset to extract pedestrian knowledge from a large-scale model. In this paper, we propose a data curation method to gather clean and diverse pedestrian instances from multiple pedestrian datasets. To filter noisy pedestrian instances, we propose CLIP-based Pedestrian Filtering Module (CPFM). CPFM utilizes the image-text-aligned property of CLIP model to filter noisy pedestrian instances. Through extensive experiments on various pedestrian datasets, we show the effectiveness and the generalizability of our proposed method.
딥러닝 기반 보행자 검출 방법들은 감시카메라와 자율주행 차량 등에서 활용되고 있다. 하지만 보행자 검출 성능이 일반화되지 않는 문제는 지금까지 풀리지 않고 있다. 최근에 대규모 모델의 지식을 보행자 검출에 활용하여 기존 보행자 검출 방법들의 일반화 성능을 높일 수 있음이 밝혀졌다. 하지만 해당 방법은 한가지 보행자 데이터셋만을 활용하여 대용량 모델의 지식을 추출한다. 본 논문에서는, 다수의 보행자 데이터셋에서 깨끗하고 다양한 보행자 이미지들을 모을 수 있는 데이터 큐레이션 방법을 제안한다. 노이지한 보행자 이미지들을 찾기 위해 CLIP-based Pedestrian Filtering Module (CPFM)을 제안한다. CPFM은 CLIP 모델의 이미지-텍스트 정렬된 특징을 활용하여 노이지한 보행자 이미지를 찾는다. 다양한 보행자 데이터셋에서의 실험을 통해 제안한 방법의 효과와 일반화 성능을 보인다.