We propose a novel memory model based on the Siamese network for long-term tracking to handle the challenging issues, including visual deformation or target disappearance. Our memory model is separated into short- and long-term stores inspired by the Atkinson-Shiffrin Memory Model (ASMM). In the tracking step, the bounding box of the target is estimated by the Siamese features obtained from both memory stores to accommodate changes in the visual appearance of the target. In the re-detection step, we only take features in the long-term store to alleviate the drift problem. At this time, we also adopt a coarse-to-fine strategy to detect the target in the entire image without the dependency of the previous position. In the end, we employ Regional Maximum Activations of Convolutions (R-MAC) as key criteria. Our tracker achieves an F-score of 0.52 on the LTB35 dataset, which is 0.04 higher than the performance of the state-of-the-art algorithm.
이 논문에서 시각 변형이나 표적의 사라짐 같은 도전적인 문제를 다루기위해 장기 물체 추적을 위한 샴 네트워크 기반 메모리 모델을 새롭게 제안한다. 우리의 기억 모델은 단기 기억 저장소와 장기 기억 저장소로 분리되며 Atksinson-Shiffrin Memory Model (ASMM) 에서 영감을 받았다. 추적 단계에서는, 표적의 경계 상자는 대상의 시각적 변형을 다루기 위해 두 기억 저장소에 저장된 샴 특징을 이용하여 추정된다. 재검색 단계에선, 드리프트 문제를 완화하기 위해 장기 기억 저장소의 특징만 이용한다. 이 시점에서 이전 위치의 의존성없이 전체 이미지에서 대상을 탐색하기 위해서 coarse-to-fine 전략을 채택한다. 마지막으로, 우리는 주요 기준으로 Regional Maximum Activations of Convolutions (R-MAC) 을 사용한다. 우리의 추적기는 LBT35 데이터 셋에서 0.52의 F-score를 달성했고, 이 성능은 state-of-the-art 알고리즘 보다 0.04 높은 수치이다.