In computer vision, various two-image input based tasks including stereo vision, optical-flow estimation have been actively researched. As deep learning architectures are trained on a large-scale dataset to extract fundamental features, extracting the most general correspondence requires a specific dataset to learn. In this paper, in order to learn the most fundamental correspondences, we solve reference based super resolution (RefSR) selecting a dataset containing various correspondences. We propose a correspondence searching and extracting network (CSENet) and prove its utility solving RefSR, self-similarity SR, and sensor fusion. CSENet is able to handle small and large displacements with dynamic offset estimator for deformable convolution and robustly extract correspondences with relevancy-aware weight learning for cluttered or irrelevant input data. The proposed network is end-to-end trainable without any additional supervisions or heavy computations. Experimental results demonstrate a superior performance of the proposed method compared to previous works quantitatively and qualitatively.
컴퓨터 비전 분야에는 스테레오 비전, 광류 추정 등 두 장 이상의 입력 영상이 필요한 문제가 다양하게 존재한다. 방대한 양의 데이터셋에 대하여 딥러닝 네트워크를 학습하여 일반적인 특징점을 추출하는 것과 같이 가장 일반적인 대응점을 추출하기 위해서는 특정 데이터셋에 대한 학습이 요구된다. 본 논문에서는 가장 포괄적인 대응점 학습을 위해서 다양한 대응점 관계를 포함한 데이터셋을 선정하여 근거 기반 초해상도 문제를 해결하였다. 근거 영상으로부터 대응점을 자동으로 탐색하고 추출하는 네트워크 (CSENet) 를 제안하고 근거 기반 초해상도, 자기 참조 초해상도, 그리고 센서 융합의 문제를 해결하여 그 활용성을 증명하였다. 가변형 컨볼루션을 위한 역동적인 오프셋 추정기를 설계하여 작고 큰 변위를 잘 처리하며 어수선하고 연관성이 낮은 입력 데이터에도 연관성에 따른 강도 학습을 통해 강인한 대응점 추출이 가능하다. 제안된 네트워크는 광류와 같은 추가적인 정보나 무거운 연산량 없이 엔드 투 엔드 학습이 가능하다. 실험 결과들은 양적 및 질적으로 기존 알고리즘에 비해 제안 된 방법의 우수한 성능을 보여준다.