Multi-object tracking (MOT) has been steadily studied for video understanding in computer vision. However, existing MOT frameworks usually employ straightforward appearance or motion models and may struggle in dynamic environments with similar appearance and complex motion. In this paper, we present a robust MOT framework with local appearance and stable motion models to overcome these two hindrances. The framework incorporates object and local part detectors, a feature extractor, a keypoint extractor, and a data association method. For the data association, we utilize five types of similarity metrics and a cascaded matching strategy. The local appearance model is suggested to be used additionally with global appearance features of full bounding boxes to obtain discriminative features even for objects with a similar appearance. At the same time, the stable motion model considers the core of the body as the central point of the object and subdivides the body using a novel 12-tuple Kalman state vector to analyze complex motion. As a result, our new tracker achieves state-of-the-art performance on the DanceTrack test set in terms of both detection and tracking quality metrics.
다중 객체 추적은 컴퓨터 비전 분야에서 비디오 이해를 위해 꾸준히 연구되어 왔다. 하지만 기존의 다중 객체 추적 프레임워크는 일반적으로 간단한 외관이나 동작 모델을 사용하여 유사한 외관이나 복잡한 동작을 갖는 동적인 환경에서 작동에 어려움을 겪을 수 있다. 따라서 본 논문에서는 국부 외관 모델과 안정한 동작 모델을 결합하여 유사한 외관과 복잡한 동작에 강인한 다중 객체 추적 프레임워크를 제안하였다. 해당 프레임워크는 객체 및 로컬 영역 검출기, 특징 추출기, 키포인트 추출키 및 데이터 연관 방법을 포함한다. 데이터 연관을 위해서는 다섯 가지 유형의 유사성 메트릭과 종속형 매칭 전략이 사용된다. 구체적으로 국부 외관 모델은 유사한 외관을 가진 객체들에 대해서도 차별적인 특징을 얻기 위해 객체의 전역 외관 정보에 더해 추가로 사용된다. 동시에 안정한 동작 모델은 몸의 중심을 객체의 중심점으로 간주하고 새롭게 정의한 칼만 상태 벡터를 통해 객체의 몸을 세분화하여 복잡한 동작을 분석할 수 있도록 한다. 결과적으로 제안한 추적기는 댄스트랙 데이터셋에서 기존 연구들보다 뛰어난 검출 및 추적 성능을 보였다.