Upscaling image and video resolutions, also commonly termed as super-resolution, has various applications, including increasing the resolution of legacy images and videos for viewing on modern displays or pre-processing various images and videos (e.g., natural images, medical images, surveillance videos) before performing other computer vision tasks such as detection or classification. Similar to other computer vision problems, unprecedented image/video quality has been achieved in super-resolution by employing deep learning models and training them on abundant paired datasets. However, three fundamental challenges still exist for deep learning-based super-resolution models: (i) spatially variant characteristics in the low-resolution input image/video, (ii) generalization of deep learning models for super-resolution, and (iii) the highly ill-posed nature of the super-resolution problem. This dissertation aims to tackle these three issues, presenting two super-resolution frameworks: a blind single image super-resolution method and a bidirectional reference-based video super-resolution method. Firstly, the blind super-resolution model addresses the generalization of super-resolution models by jointly learning spatially variant degradation kernels and restoration kernels. Secondly, the bidirectional reference-based video super-resolution model aims to overcome the ill-posed nature in super-resolution by assuming bidirectional (past and future) reference frame inputs. This allows to narrow down the high-resolution solution space for the low-resolution frames in the same shot since video frames are likely to be highly redundant within the shot, thereby reducing the ill-posedness in super-resolution. Both the proposed single image and video super-resolution models incorporate local kernels in the model design so that spatially variant operations can be applied to images, video frames, and feature maps. The proposed models are analyzed and validated with extensive experiments including comparisons to the state-of-the-art methods, various kernel visualizations, and ablation studies.
초해상화는 영상 및 동영상의 해상도를 확대하는 기술이며, 과거의 영상 및 동영상의 해상도를 최신 디스플레이를 사용하여 시청할 수 있도록 확대하기 위해 활용하거나 다양한 영상 및 동영상(예. 자연 영상, 의학 영상, 감시 동영상)에 대하여 감지 및 분류 등의 다른 컴퓨터 비전 처리 과정을 수행하기 이전에 전처리 과정으로써 수행하는 등의 다양한 응용 분야를 가지고 있다. 타 컴퓨터 비전 문제들과 마찬가지로 초해상화에서는 딥러닝 모델을 설계하고 풍부한 페어 데이터셋으로 이를 학습함으로써 전례없는 영상 및 동영상 화질을 달성할 수 있었다. 하지만 딥러닝 기반 초해상화 기술에서는 아직 다음과 같은 세 가지 근본적인 도전점이 존재한다. 이는 (i) 저해상도 영상/동영상의 공간 변동적인 특성을 고려하는 것, (ii) 초해상화를 위한 딥러닝 모델을 일반화하는 것, 그리고 (iii) 초해상화 문제의 불량 조건성을 극복하는 것이다. 본 논문은 이 세 가지 쟁점을 다루는 것을 목표로 하며, 블라인드 단일 영상 초해상화 및 양방향 참조 기반 동영상 초해상화를 위한 두 가지 초해상화 프레임워크를 제시한다. 첫째로, 제안하는 블라인드 초해상화 모델은 저해상도 영상으로부터 공간적으로 변동하는 왜곡 커널 및 복원 커널을 합동으로 학습함으로써 초해상화 모델이 임의의 왜곡 커널을 다룰 수 있도록 하여 초해상화 모델의 일반화 문제를 극복한다. 둘째로, 제안하는 양방향 참조 기반 동영상 초해상화 모델은 동영상 초해상화를 수행함에 있어 과거와 미래의 양방향 참조 프레임 입력을 활용한다는 가정을 도입하여 초해상화 문제의 불량 조건성을 완화한다. 동일한 동영상 샷 내의 프레임들은 매우 중복적인 정보를 포함할 가능성이 높기 때문에 양방향의 참조 프레임을 제공하는 것은 동일 동영상 샷의 저해상도 프레임에 대해서 고해상도 해공간을 좁혀나갈 수 있도록 하여, 초해상화 문제의 불량 조건성을 완화할 수 있다. 또한, 단일 영상 및 동영상 초해상화 모델 설계에 있어, 제안하는 두 방법 모두 국지적 커널 학습을 도입하여 영상, 동영상 프레임 및 특징맵에 공간적으로 변동하는 동작을 적용할 수 있도록 하였다. 두 제안 모델은 최신 방법과의 비교, 다양한 커널 시각화 및 애블레이션 연구를 포함하여 광범위한 실험을 통해 분석하고 검증하였다.