The demand for high quality videos has been increasing rapidly in recent years, and super-resolution (SR) methods are rising as core technologies for the generation of high quality visual content. SR methods can be mainly divided into two categories: single image SR and multi-frame (video) SR. While single image SR methods produce a single high resolution (HR) output from the corresponding single low resolution (LR) input, video SR methods produce a single HR output at a specific time instant from a series of consecutive LR input frames. Single image SR methods solely utilize the spatial information in a single input image to produce the HR output, whereas video SR methods exploit the temporal relations between the consecutive frames to make use of the additional spatial information available for a more accurate reconstruction of HR video frames. In this thesis, we present our research on video SR and propose a deep neural network-based HR frame generation method that considers scene changes when using the spatio-temporal information in video frame inputs. Furthermore, the proposed video SR method based on a 3D convolutional neural network does not require motion estimation nor compensation as a pre-processing step, which is often necessary for other video SR methods. We also present a scene boundary detection module and a frame input structure that prevents performance degradation due to scene changes in the input video frames.
최근에 고품질의 비디오 콘텐츠에 대한 수요가 급속하게 증가하고 있으며, 이에 대한 핵심 기술로 초해상화 기술에 대한 요구가 증대되고 있다. 초해상화 연구는 단일 영상 초해상화 연구와 복수 영상 (비디오) 초해상화로 나눌 수 있으며, 단일 영상 초해상화는 단일 저해상도 영상 입력에 대한 단일 고해상도 영상을 생성하는 반면에, 비디오 초해상화는 시간적으로 연속적인 2개 이상의 저해상도 영상 입력에 대해 지정된 시간 위치의 고해상도 출력 영상 하나를 생성하는 것이다. 단일 영상 초해상화는 하나의 입력 영상에 대한 공간 정보를 이용하여 고해상도 영상을 생성하는 반면에, 비디오 초해상화는 시공간적 화소 정보를 활용함으로써 고해상도 출력 영상을 보다 고화질로 생성할 수 있는 장점이 있다. 본 학위 논문 연구에서는 비디오 초해상화 연구를 수행하였으며, 제안하는 방법으로 비디오 입력에 대한 장면 전환을 고려한 영상 화소값의 시공간 정보를 활용하는 3차원 심층 콘볼루션 신경망 기반 고해상도 영상 생성 방법을 연구하였다. 또한 본 연구의 비디오 초해상화 심층 콘볼루션 신경망은 비디오 초해상화에서 많이 활용하는 일련의 입력 영상에 대해 전처리 과정인 움직임 추정과 보상 과정을 필요로 하지 않는 3차원 콘볼루션 신경망 구조를 제안하였으며, 장면 전환으로 인한 성능저하를 개선하기 위해 장면 경계 검출과 장면 전환 경계에서의 비디오 입력 구조를 제시한다.