Visual place recognition is a crucial research topic that can be utilized in various ways concerning location recognition in computer vision and robotics. This dissertation deals with a novel visual place recognition (VPR) method robust to urban environments crowded with dynamic objects. Furthermore, its key components are utilized for visual localization of navigation and distortion correction research of medical tomography images.
First, we propose a robust visual place recognition method that suppresses the effect of dynamic objects by self-supervised learning in an urban environment with many dynamic things. Visual place recognition searches for images most similar to an input query image among a geo-tagged database and outputs its place. However, its accuracy is severely degraded when images include many dynamic objects that change over time, such as vehicles and pedestrians. To this end, we propose a new self-supervised de-attention mechanism that suppresses the influence of dynamic objects in images. In addition, sharpened triplet marginal loss is proposed to improve the global descriptor discrimination of the VPR, and its effectiveness is visualized. Subsequently, the re-ranking process using geometric verification based on deep local features follows. Finally, we apply the above three new approaches to the NetVLAD backbone, widely used in image-based location recognition, and train and test it with public datasets. To overcome the lack of datasets crowded with dynamic objects such as vehicles and people, we propose a clutter augmentation method that augments the density of dynamic objects in images.
Second, we employ the proposed robust visual place recognition method for the global localization of a robot in a city. Next, localization for robot navigation is also an essential research topic in robotics. Generally, expensive 3D Lidar sensors and pre-map building are used for localization instead of GNSS (Global Navigation Satellite System) with severe position errors in shaded areas and indoors. However, because astronomical costs are required to introduce public robot services at the city level with such an expensive localization method, studies on cost-effective robot localization are crucial for robot navigation. To this end, we introduce a robot camera image and free street view images into the query and database, respectively, and predict the robot’s location on a free online map. Monte Carlo localization (MCL) is utilized for global localization, and the VPR location result is introduced into its sensor model. However, suppose the domain difference between the learning and the test images is severe or similar scenes are repeated, such as a walking path or a long corridor. In that case, the reliability of the VPR is decreased. To cope with this, we define the visible region based on the predicted location
and restrict only the results within the visible region to valid sensor observations.
Lastly, we utilize the geometrical verification method of the proposed VPR for 2D tomography image registration of a novel magnetic particle imaging device. A magnetic particle imaging (MPI) system has recently attracted attention as a medical diagnosis device using a safe tracer without radiation exposure. Similar to research in the future vehicle interdisciplinary field, novel MPI development research requires extensive interdisciplinary convergence research in electricity, electronics, physics, materials, pharmacy, medicine, hospital clinical, robotics, and computer vision. Therefore, this study is possible only in a few advanced countries, such as the United States and Germany, where the technology has evenly reached the completion stage. We have successfully developed a novel point-of-care compact MPI for the first time in Korea. In this dissertation, we introduce it and employ the proposed geometric verification method of VPR for its image processing. In particular, we present a method for calibrating the distortion of 2D tomography images accumulated from the manufacturing stage by homography
estimation based on fiducial markers and restoring it in a three-dimensional (3D) MPI image.
시각적 장소 인식 (visual place recognition, VPR)은 컴퓨터 비전과 로보틱스 분야에서 위치 인식과 관련된 다양한 응용에 적용 가능한 중요한 연구 주제이다. 본 학위 논문에서는, 동적 객체로 붐비는 도시 환경에 강인한 새로운 시각적 장소 인식 방법을 제안하고, 나아가 그것의 요소 기술들이 영상 기반 네비게이션의 위치 인식 연구 및 의료용 단층 촬영 (tomography) 영상의 왜곡 보정 연구로 확장 가능함을 보인다.
첫째, 동적 객체가 많은 도시 환경에서 자기 감독 학습에 의해 동적 객체의 영향을 억제하는 강인한 시각적 장소 인식 방법이 제안된다. 시각적 장소 인식은 위치가 기록된 데이터베이스 (database) 영상들 중에서, 입력된 쿼리 (query) 영상과 가장 유사한 것을 탐색하고 그것의 위치 정보를 출력하는 알고리즘이다. 그런데, 차량, 행인과 같이 시간에 따라 변하는 동적인 객체가 영상에 다수 포함될 경우 탐색 정확도가 심각하게 저하될 수 있다. 이를 극복하기 위해, 우리는 이미지내에서 동적 객체의 영향을 억제 하는 새로운 자기 지도 디어텐션 (self-supervised de-attention) 매카니즘을 제안한다. 다음으로, 전역 기술자 (global descriptor)의 구분력을 향상 시키는 예리한 삼중 마지날 로스 (sharpened triplet marginal loss)를 제안하고, 그것의 효용성을 가시화한다. 계속해서, 탐색 결과의 기하학적 검증 (geometric verification)을 위해 딥 지역 특징 (deep local feature) 기반의 순위재정렬 (re-ranking)이 제안된다. 끝으로, 우리는 영상 기반의 위치 인식에서 널리 사용되는 넷블라드 (NetVLAD) 방식에 앞의 세가지 새로운 시도를 적용한 VPR을 제안하고, 공공 데이터셋으로 학습하여 검증한다. 추가로, 검증 단계에서 동적 객체로 붐비는 도심 수준의 VPR용 공공 데이터셋 부족 문제를 극복하기 위해, 이미지 내에서 동적 개체의 밀도를 증강시켜주는 클러터 증강 (clutter augmentation) 방식을 제안한다. Pittsburgh30K, TokyoTM, Tokyo24/7 등의 공공 (public) 데이터셋을 활용한 리콜 탑 1 (recall at top-1) 측정 실험에서, 우리 방식이 기준 (VGG16-based NetVLAD) 대비 2 ∼ 12%point 향상된 것으로 관측되었다.
둘째, 강인한 시각적 장소 인식 방법을 활용한 로봇의 전역 위치 인식 방법이 제안된다. 네비게이션을 위한 로봇 위치 인식 (localization)은 로보틱스 분야에서 매우 중요한 연구 주제이다. 최근에는, 실내 및 음영 지역에서 위치 오차가 심한 위성항법시스템 (global navigation satellite system, GNSS) 대신, 고가의 3차원 라이다 (lidar) 센서와 사전 맵빌딩 기반의 위치 인식 방법이 주로 활용된다. 하지만, 이러한 고비용 위치 인식 방식으로 도시 범위의 대중화된 로봇 서비스가 도입되려면 천문학적인 비용이 소요되므로, 합리적 비용의 위치 인식 연구는 매우 중요하다. 이를 위해, 우리는 앞서 제안된 VPR의 쿼리와 데이터베이스 입력에, 싱글 카메라 영상과 무료로 얻을 수 있는 거리뷰 (street view) 영상을 각각 도입하고, 무료 온라인 지도상에서 로봇의 위치를 인식한다. 전역 위치 인식을 위해 몬테 카를로 로칼라이제이션 (Monte Carlo localization, MCL)을 사용하고, VPR 위치 결과를 센서 모델에 도입한다. 이때, 학습 영상과 테스트 영상 사이의 도메인 차이가 크거나, 보행로나 긴 복도와 같이 유사한 장면이 반복되면 VPR의 신뢰도가 낮아지는 문제가 발생 할 수 있다. 이를 극복하기 위해, 우리는 추정 위치 기반의 가시영역 (visible region)을 정의하고, 가시 영역 내의 결과만을 유효 센서 관측으로 제약함으로써, VPR 및 MCL의 정확도를 동시에 향상시킨다.
마지막으로, 시각적 장소 인식의 기하학적 검증 방법이 새로운 의료용 단층 촬영 (tomography) 영상의 왜곡 보정 연구로 확장 가능함을 보인다. 최근 자기 입자 영상화 (magnetic particle imaging, MPI) 시스템은 안전한 비방사선 추적자를 사용하는 의료 영상 진단 장치로서 주목 받고 있다. 미래자동차학제 연구 분야와 마찬가지로, 새로운 MPI 개발 연구는 전기, 전자, 기계, 물리, 재료, 의학, 병원임상, 컴퓨터비전 분야 등의 광범위 한 학제간 융합 연구를 필요로 하기 때문에, 전분야에 걸쳐 기술이 고르게 완성 단계에 도달한 미국, 독일 등의 몇몇 선진국에서만 가능한 연구이다. 국내에서는 우리가 최초로 현장 진단을 위한 경량화 목적의 MPI 연구 개발에 성공하여 그 결과를 발표하였다. 본 학위 논문에서는 관련 연구 내용을 소개하고, 앞서 제안된 VPR의 기하학적 검증 방식을 새로운 MPI의 영상처리 연구 단계에 적용해본다. 특히, MPI 제조 단계부터 누적 된 2차원 단층 (tomography) 영상들의 왜곡을 피듀셜 마커 (fiducial marker) 기반의 호모그라피 (homography) 추정으로 교정 (calibration)하고, 3차원 MPI영상으로 복원하는 방법을 제시한다.