In contrast to conventional object detection datasets, where objects are generally oriented upward due to gravity, the object instances in aerial images often appear with arbitrary orientations. In addition, objects appear in the aerial images at a much smaller scale and are usually in clusters. While providing promising detection results with multiple natural image datasets, the performance of modern detectors on aerial images is far from satisfactory in both accuracy and efficiency.
Cluster object detection was introduced as an approach that targets to solve the problems of object resolution, sparsity, and computational efficiency in aerial images simultaneously. In cluster object detection, the original images are divided into cluster chips which are smaller images which each are cropped from the original image and contain a high-density cluster of objects. The final detection result is combined from the global detection and a number of cluster chip detections. In their original behavior, cluster object detection models use topN of cluster chips with the highest box regression probability. By conducting analysis experiments, we show that the default chip selection scheme is not ideal. Due to the nature of having to apply object detection multiple times with global and cluster chips, cluster object detection takes a longer time to execute than the generic detection models. Existing work on multi-GPU scheduling mostly uses the assumption of stable workload, where the system only needs to compute the scheduling plan once in a while. Serving the model in a cluster of multiple GPUs under the constraints of Service Level Objectives is another challenge that must be taken care of.
To this end, we propose a 2-stage approach that addresses the two main problems stated above. We analyzed the performance of the detection model by a variety of parameters and suggested a more efficient chip selection scheme that helps improve the performance of the model. We then proposed an efficient online scheduling scheme that targets the irregular workload characteristic of the application. The scheduler aims to maximize the system capacity while minimizing the amount of energy needed.
We evaluated our proposed chip selection scheme by mean Average Precision score and compare the same metric with the default procedure. We compared the throughput, energy consumption, and SLO violation rate of our proposed scheduling scheme with a popular scheduling method for input data as an input stream. The results reveal the potential of our chip selection scheme and confirm the outstanding performance of our scheduling scheme for the application.
일반적으로 중력에 의해 물체가 위로 향하게끔 놓여있는 기존의 물체 인식 데이터셋과 달리 항공 사진은 임의의 방향으로 정렬된 경우가 많다. 또한, 항공 사진은 더 작게 찍히는 편이며 보통 군집하여 찍히곤 한다. 이러한 이유로 현대의 검출기들은 다수의 자연스러운 사진 데이터셋에서 훌륭한 검출 결과를 보여주지만, 항공 사진에서는 정확도와 효율 모두 만족스럽지 못한 성능을 보여주고 있다.
군집 물체 검출은 공중에서 찍힌 사진상 물체의 해상도와 낮은 밀도, 계산 효율 등의 문제를 동시에 해결하기 위한 접근법으로 도입되었다. 군집 물체 검출을 하기 위해서는 우선 원본 사진을 쪼개어 높은 밀도의 군집을 하는 작은 클러스터 조각들을 만들어낸다. 최종 검출 결과는 원본 전체를 검출한 결과와 조각들을 검출한 결과를 합쳐 도출한다. 기존의 군집 물체 검출 모델은 가장 높은 박스 추정 확률을 갖는 N개의 클러스터 조각들을 사용한다. 우리는 실험 및 분석을 통해 이러한 방식의 클러스터 조각 선택 전략이 이상적이지 않다는 것을 보였다. 전체 사진과 클러스터 조각들에 여러 번 물체 검출을 진행해야 한다는 특성 때문에 클러스터 조각에서의 물체 검출은 전체에서의 물체 검출보다 더 긴 시간을 소모한다. 기존의 다중 GPU 스케쥴링 방식은 시스템상에서 스케쥴링 계획 계산이 빈번하지 않은 안정된 작업량을 가진 환경에서 돌아갈 것을 가정하고 있다. 때문에 서비스단 목표라는 제약 아래서 다중 GPU 클러스터 상에 우리의 모델을 돌아가게 하는 것은 반드시 고려해야 하는 또 다른 도전 과제이다.
여태까지 우리는 앞서 언급된 두 가지 주요 문제들에 관한 두 단계의 접근 방법을 제시했다. 우리는 물체 검출 성능을 다수의 파라미터를 사용하여 분석했고 모델의 성능 향상에 도움이 되는 보다 효율적인 조각 선택 전략을 제시했다. 그다음에 우리는 불규칙한 작업량을 갖는 애플리케이션을 대상으로 한 효율적인 온라인 스케쥴링 전략을 제시하였다. 이 스케쥴러는 필요한 에너지 총량을 최소화함과 동시에 시스템의 생산 능력을 최대화하는 것이 목표이다.