Hand-crafted features is one of the most important components in various computer vision application. However, designing hand-crafted features requires a lot of efforts and needs expert knowledge. Besides, it has still limits to track object due to many challenges such as scale, motion, occlusions, and illumination changes. In this paper, to reduce this efforts, a deep learning technique which has ability to automatically extract useful features from raw data is adopted. We proposed a novel visual tracking algorithm with deep neural networks, composed of Convolutional Neural Networks (CNNs). Our deep network is divided into the three parts. The first part is based on two convolutional neural networks for image representation. The two convolutional neural networks are used to extract the same features of target object from two consecutive images. The second part is compoesed of several independent convolutional neural networks to track object. These CNNs independently track the target object using pairwise feature comparisons. Finally, in the third part, the results from independent CNNs in the part two are merged to the reasonable final output. By comprarison with the state-of-the art trackers, we show that our pairwise comparisons tracker is more accurate on some challenging benchmark video sequences.
Hand-crafted 특징은 다양한 컴퓨터 비전 어플리케이션에서 쓰이는 가장 중요한 요소이다. 그러나 Hand-crafted 특징을 설계하는 것은 많은 시간과 노력 그리고 전문적인 지식이 필요하다. 게다가 물체 추적에 쓰이기에는 물체의 크기 변화, 움직임, 다른 물체에 의한 가려짐, 그리고 조명 변화와 같은 이유로 한계가 있다. 이러한 노력을 줄이기 위하여, 최근에 모든 컴퓨터 비전 분야에서 월등한 성능을 보이는 Deep learning 기법이 사용되었다. 본 논문에서는 관심 물체를 추적하기 위하여, 영상과 같은 raw 데이터에서 유용한 특징들을 자동으로 추출하는 Convolutional Neural Networks (CNN)로 구성되어있는 물체 추적 알고리즘을 제안한다. 제안한 Deep 아키텍처는 세 개의 파트로 나누어진다. 첫 번째 파트는 두 개의 CNN으로 구성되어 있으며 이전 영상과 현재 영상에서 관심 물체의 특징을 추출한다. 두 번째 파트는 여러 개의 CNN으로 구성되어 있으며 첫 번째 파트에서 두 개의 영상에서 추출한 특징들을 비교하여 물체를 각각 추적한다. 세 번째 파트는 추적 결과를 합리적으로 융합한다. 최신 기술들과 비교하여 제안한 물체 추적기가 몇몇 시퀀스 데이터셋에서 더 정확하다는 것을 보였다.