Visual place recognition is the task of recognizing a place depicted in an image based on its pure visual appearance, i.e. no metadata is required. Visual place recognition has received a significant amount of attention in the past few years both in computer vision and robotics communities, motivated by applications in robotics, argument reality, navigating, and map platform. In visual place recognition, the challenges lie upon not only the changes in lighting conditions, camera viewpoint, and scale, but also the characteristic of scene level images and the distinct features of the area. To resolve these challenges, one must consider both the local discriminativeness and the global semantic context of images. On the other hand, the diversity of the datasets is also particularly important to develop more general models and advance the progress of the field.
In this thesis, we present a fully-automated system for place recognition at a city-scale based on content-based image retrieval. Our main contributions to the community lie in three aspects. Firstly, we take a comprehensive analysis of visual place recognition and sketch out the unique challenges of the task compared to general image retrieval tasks. Next, we propose yet a simple pooling approach on top of convolutional neural network activations to embed the spatial information into the image representation vector. Finally, we introduce new datasets for place recognition, which are particularly essential for application-based research. Furthermore, throughout extensive experiments, various issues in both image retrieval and place recognition are analyzed and discussed to give some insights for improving the performance of retrieval models in reality.
시각적 장소 인식은 순수한 시각적 외관에 기초하여 영상에 묘사된 장소를 인식하는 작업이다. 즉, 메타데이터는 필요하지 않다. 시각적 장소 인식은 지난 몇 년 동안 로봇 공학, 논쟁 현실, 항해, 지도 플랫폼에서의 응용에 의해 동기 부여된 컴퓨터 비전과 로봇 공동체 모두에서 상당한 관심을 받았다. 시각적 장소 인식에서 과제는 조명 조건, 카메라 시야 및 스케일의 변화뿐만 아니라 장면 수준 영상의 특성과 영역의 뚜렷한 특징에 있다. 이러한 과제를 해결하려면 이미지의 지역적 차별성과 글로벌 의미적 맥락 모두를 고려해야 한다. 한편, 데이터셋의 다양성은 보다 일반적인 모델을 개발하고 현장의 진보를 진전시키기 위해서도 특히 중요하다.
본 논문에서는 콘텐츠 기반 이미지 검색에 기초한 도시 규모에서의 장소 인식에 대한 완전 자동 시스템을 제시한다. 지역사회에 대한 우리의 주요 공헌은 세 가지 측면에 있다. 첫째, 시각적 위치 인식에 대한 종합적인 분석을 실시하여 일반적인 이미지 검색 작업과 비교하여 과제의 고유한 과제를 스케치한다. 다음으로, 우리는 공간 정보를 이미지 표현 벡터에 내장하기 위해 경직 신경 네트워크 활성화 위에 단순한 풀링 접근법을 제안한다. 마지막으로, 우리는 특히 애플리케이션 기반 연구에 필수적인 장소 인식을 위한 새로운 데이터 세트를 소개한다. 또한 광범위한 실험에서 이미지 검색과 장소 인식의 다양한 문제를 분석하고 논의하여 현실에서 검색 모델의 성능을 향상시킬 수 있는 통찰력을 제공한다.