Recently, many deep-learning-based pan-sharpening methods have been proposed for generating high-quality pan-sharpened result images. Pan-sharpening is a method that can reconstruct a high-quality high-resolution image of a target band (e.g. multi-spectral, MS), from using a pair of a low-resolution image input of the target band and high-resolution image of other band (e.g. panchromatic, PAN). In this work, we propose three novel convolutional neural network (CNN) based pan-sharpening methods.
First, we propose a generalized CNN architecture for both pan-sharpening and super-resolution with and without PAN input images. Moreover, we use a mixed training dataset of two different satellites, and show promising results on the trained satellite datasets as well as an unseen satellite dataset. To achieve high performance for both pan-sharpening and super-resolution, we propose to create a dummy PAN image when the PAN input are unavailable, which is then fed to our pan-sharpening network. Moreover, as satellite image datasets have different signal characteristics (i.e. different dynamic ranges, pixel histograms) from one another, we employ an efficient normalization for satellite images.
Secondly, we propose a novel loss function for training CNNs for pan-sharpening. Conventional pan-sharpening methods mainly focused on various types of convolutional neural network (CNN) structures, which were trained by simply minimizing L1 or L2 losses between high-resolution multi-spectral (MS) target images and generated network outputs. When PAN and MS images (which are used as inputs for CNN) are of small ground sample distance (GSD), they often have inter-channel pixel misalignment due to inherent limitations in satellite sensor arrays. Conventional pan-sharpening methods that were trained with L1 or L2 losses on these misaligned datasets tend to produce HR images of inferior visual quality including double edge artifacts. In this work, we propose a novel loss function, called a spectral-spatial structure (S3) loss, which is specifically designed to preserve spectral information of MS targets and spatial structure of PAN targets in pan-sharpened images. More specifically, our S3 loss consists of two loss functions: a spectral loss between generated images and MS targets, and a spatial loss between generated images and PAN targets. Our S3 loss can be used for any types of CNN structures for pan-sharpening, resulting in significant visual improvements compared to the state-of-the-art CNN-based pan-sharpening methods.
Finally, we propose a novel unsupervised learning framework for pan-sharpening. Conventional CNN-based pan-sharpening methods used supervised learning for training networks, by applying a certain degradation model to original MS-PAN satellite images to generate MS-PAN inputs. In doing so, these networks were only trained for the lower scale scenario, and thus perform poorly when tested at the original scale scenario. On the contrary, our proposed unsupervised learning framework can overcome this problem. To achieve high visual quality, we first propose a simple multi-resolution MS-PAN registration based on correlations, to obtain a coarsely aligned PAN-resolution MS target from each MS-PAN input pair. Additionally, we designed two losses for training our network: a spectral loss between network outputs and our aligned MS targets; and a spatial loss between network outputs and PAN inputs. Experiment results show that our method can generate pan-sharpened images with much higher visual quality and better metric scores, compared to our previous methods and the state-of-the-art pan-sharpening methods.
최근 다양한 심층 학습(Deep learning) 기반 위성 영상 융합(Image fusion) 기법들이 제안되어 왔다. 위성 영상 융합은 고해상도의 전정색(Panchromatic, PAN) 영상과 저해상도의 다중분광(Multi-spectral, MS) 영상을 융합하여 PAN 해상도, 즉 고해상도의 MS 영상을 생성하는 기법으로서, PAN 영상 선명화(Pan-sharpening) 및 채색화(Pan-colorization)을 포함하고 있다. 본 논문에서는 세 가지의 심층 신경망 기반 영상 융합 기법들을 새로이 제안한다.
첫 째, 고해상도 PAN 입력 영상이 존재할 때와 그렇지 않을 때를 위해서, 영상 융합과 초해상화를 동시에 수행 가능하도록 심층 신경망을 기반하여 하나의 통합 프레임워크를 제안한다. 또한, 특성이 서로 다른 두 가지의 위성 영상 데이터셋에 대한 훈련 방법 및 평준화 기법을 제안하고, 해당 위성 영상들 및 네트워크가 학습하지 못한 새로운 위성 영상에 대해서도 잘 작동하는 것을 보인다.
둘 째, 본 논문에서는 위성 영상 융합 네트워크 훈련을 위한 새로운 손실 함수를 제안한다. 기존 딥러닝 기반 위성 영상 융합 기법들은 단순히 네트워크 출력과 목표 MS 영상과의 손실 함수를 사용하여 네트워크를 훈련시킨다. 때문에, 기존 기법들의 결과 영상들은 PAN 영상이 지니고 있는 디테일 및 텍스처를 배우지 못하며, 위성 특성상 MS와 PAN 영상에는 서로 픽셀 틀어짐이 존재하는데 기존 기법들은 해당 문제를 고려하지 않아 결과 영상에 많은 왜곡(Artifact)들이 생성된다. 이를 해결하기 위해, 본 논문에서는 MS와 PAN 사이의 상관도 지도를 생성하고, 이를 기반하여 새로운 S3 손실 함수(Spectral-Spatial Structure Loss, S3)를 제안한다. 즉, MS와 PAN의 상관도가 높은 공간에서는 네트워크 출력과 MS 간의 손실 함수에 더 가중치를 두고, 상관도 낮은 공간에서는 PAN과의 손실 함수에 더 가중치를 주는 새로운 형태의 손실 함수를 제안한다.
마지막으로, 본 논문에서는 위성 영상 융합을 위한 비지도 학습(Unsupervised learning) 기법을 새로이 제안한다. 기존 기법들은 대부분 지도 학습 기반으로 제안되었으며, 주어진 위성 영상에 간단한 열화 모델(Degradation model)을 적용하여 입력 영상들을 생성하고 입력-목표 관계를 학습하는 구조이다. 때문에, 열화 모델을 적용하지 않은 원본 위성 영상을 입력으로 사용하는 추론 단계에서는, 기존 네트워크가 이를 학습하지 못하였기 때문에 왜곡이 많은 결과 영상을 생성하게 된다. 본 제안 기법에서는 다중해상도의 MS와 PAN 영상에 대해 상관도를 기반한 간단한 정합화(Registration) 기법을 제안하고, 이를 사용해 정합된 고해상도 MS 목표 영상을 생성한다. 또한, 본 논문에서는 네트워크 출력과 제안한 정합된 MS 영상 간의 스펙트럼 손실 함수와, 네트워크 출력과 PAN 영상 간의 공간적 손실 함수를 활용하여 네트워크 훈련을 진행한다. 본 제안 기법은 기존 최신 영상 융합 기법들에 비해 왜곡이 적은 고화질의 결과 영상을 생성할 수 있음을 다양한 실험들을 통해 확인하였다.