Frame rate up-conversion, also called video frame interpolation (VFI), is a low-level computer vision problem for generating one [or] more intermediate frames between two original consecutive frames in videos. The FRUC problem has been solved for several decades by heuristic approaches, and deep-learning based FRUC has recently been studied. We propose two approaches to FRUC: (i) a learning-based direct linear mapping approach; and (ii) a kernel-based approach using a hierarchical deep convolutional neural network (CNN).
We present a novel and effective learning-based FRUC scheme, using linear mapping. The proposed learning-based FRUC scheme consists of (i) a novel hierarchical extended bilateral motion estimation (HEBME) method and (ii) a synthesis-based motion-compensated frame interpolation (S-MCFI) method. Firstly, the HEBME method effectively enhances the accuracy of motion estimation (ME), which can lead to a significant improvement of FRUC performance. The proposed HEBME method consists of two ME pyramids of a three-layered hierarchy where one pyramid searches Motion Vectors (MVs) for the first set of block partitions and the other pyramid searches MVs for the second set of blocks which are placed in the shifted locations by the half block sizes of the first set of blocks. Thus, the MVs are searched in a coarse-to-fine manner via each pyramid such that they can be refined in an enhanced resolution of 4 times by jointly combining the MVs from the two pyramids where our proposed HEBME method plays an important role in achieving the high accuracy of ME. The HEBME method utilizes a novel and very effective matching criterion for ME which consists of the sum of bilateral absolute difference, the edge variance of an average block between two consecutive blocks found by bilateral ME, the pixel variances of two consecutive blocks, and the MV difference between the current block and its neighboring blocks. Secondly, the S-MCFI method finally generates interpolated frames by applying linear mapping kernels for the original frames. For the linear mappings of S-MCFI, multiple linear mapping kernels are computed based on kernel ridge regression for various edge characteristics during training.
We also present a kernel-based FRUC scheme based on a convolution neural network (CNN) where two sets of horizontal and vertical kernels are learned for two consecutive input frames by the proposed hierarchical CNN. Our FRUC scheme aims at interpolation one single frame between two consecutive input frames. For a kernel-based approach, the number of kernel taps is important to improve the subject quality of the interpolated frame because the kernels only consider pixels which are in the range of kernel taps. Thus, kernel taps in the kernel-based FRUC scheme should be increased in order to handle videos with fast motions which are represented as large-displacements and large-scale videos such as high-definition (HD) 1080 and 4K ultra-high-definition (UHD). However, it is difficult to increase the number of kernel taps because of a lack of the memories and computational complexity. Hence, we propose a hierarchical CNN for the FRUC. The proposed learning-based FRUC scheme consists of (i) kernel estimation and (ii) shift-able local convolution for interpolating intermediate pixels. The shift-able` local convolution can yield the estimated kernels that can cover large regions that are often out of the ranges in conventional kernel-based approaches.
In order to show the effectiveness of our proposed FRUC schemes, we present experimental results for FRUC using various test sequences. The experimental results show that our linear mapping-based FRUC significantly outperforms the state-of-the-art schemes which are based on heuristic approaches with average 1.50 dB higher in PSNR and our hierarchical CNN-based FRUC outperforms the state-of-the-art schemes including the latest deep learning-based FRUC scheme. Specifically, the hierarchical CNN-based FRUC scheme with our proposed shift-able local convolution can interpolate an intermediate frame with high-quality when objects in the original frames have fast motions.
비디오 프레임 보간 법 이라고도 불리는 프레임 율 향상 기법은 전통적인 컴퓨터 비전 문제로써 비디오 영상에서 원본의 연속된 두 장의 프레임 사이에 중간 프레임을 생성하여 삽입하는 것을 뜻한다. 프레임 율 향상 기법은 수년에 걸쳐 체험적인 접근법을 이용해 해결되어 왔으며, 최근에 딥러닝을 이용한 연구가 진행되기 시작했다. 우리는 훈련을 바탕으로 한 선형 매핑 기반의 비디오 프레임 보간 법과 계층구조 콘볼루션 신경망 기반의 비디오 프레임 보간 법을 제안한다.
우리는 선형 매핑을 이용한 새롭고, 효과적인 훈련 기반의 프레임 율 향상 기법을 제안한다. 제안하는 훈련 기반의 프레임 율 향상 기법은 새로운 계층구조의 확장된 양 방향 움직임 추정 기법과 합성 기반의 움직임 보상 프레임 보간 기법으로 구성된다. 첫번째로, 제안하는 움직임 추정 기법은 효과적으로 움직임 추정의 정확도를 향상 시킴으로써 프레임 율 향상 기법의 성능을 상당히 끌어 올렸다. 제안하는 움직임 추정 기법은 2개의 3층으로 이루어진 계층구조의 움직임 추정 피라미드로 구성된다. 2개의 움직임 추정 피라미드 중 첫번째 피라미드는 주어진 블록 단위로 움직임 벡터를 추정하며, 두번째 피라미드는 첫번째 피라미드의 주어진 블록 크기의 절반을 이동하여 움직임 벡터를 추정한다. 따라서 각 피라미드를 통해 점차적으로 정확히 추정된 움직임 벡터들을 최종적으로 결합함으로써 움직임 추정 벡터의 해상도를 4배 향상시킬 수 있으며, 제안하는 계층구조의 확장된 양 방향 움직임 추정 기법을 통해 높은 정확도로 움직임을 추정할 수 있다. 제안하는 움직임 추정 기법은 새롭고 효과적인 검색 기준을 제안한다. 제안하는 검색 기준은 양방향 절대값의 차이의 합, 양방향 움직임 추정 기법에 의해 선택된 블록 사이의 평균 블록의 에지의 분산, 현배 블록과 주변 블록 간의 움직임 벡터의 차이로 구성된다. 두번째로, 합성 기반의 움직임 보상 프레임 보간 기법은 원본 프레임에 선형 매핑 커널을 적용시킴으로써 보간 된 프레임을 생성한다. 다수개의 선형 매핑 커널은 훈련을 통해 다양한 에지 특성에 따라 커널 리지 회귀에 의해 계산된다.
우리는 또한 콘볼루션 신경망을 통한 커널 기반의 프레임 율 향상 기법을 제안한다. 제안하는 계층구조의 콘볼루션 신경망을 통해 연속된 두개의 입력 프레임들에 대한 수평 방향과 수직 방향의 커널들이 훈련된다. 제안하는 프레임 율 향상 기법은 두개의 입력 프레임들 사이에 단 하나의 프레임을 보간 하는 것을 목표로 한다. 커널 기반의 접근법에 있어서, 커널은 커널의 탭 수 이내의 범위에 놓인 화소 들 만을 고려하기 때문에, 커널의 탭 수는 보간 된 프레임의 주관적 화질 향상에 중요한 역할을 담당한다. 그러므로, 고화질 1080과 초고화질 4K 영상과 같은 대규모의 영상들과 영상에서 큰 이동으로 표현되는 빠른 움직임들을 다루기 위해서, 커널 기반의 프레임 율 향상 기법의 커널의 탭 수는 증가되어야 한다. 그러나 메모리의 한계와 계산 복잡도 때문에 커널의 탭 수를 늘리는 것은 어렵다. 따라서, 우리는 프레임 율 향상 기법을 위한계층구조 콘볼루션 신경망을 제안한다. 제안하는 계층구조 콘볼루션 신경망 기반의 프레임 율 향상 기법은 커널 추정과 픽셀 보간을 위한 움직일 수 있는 지역적 콘볼루션 연산으로 구성된다. 움직일 수 있는 지역적 콘볼루션 연산은 추정된 커널들이 기존의 커널 기반의 접근법에서는 벗어나버린 큰 범위를 다룰 수 있도록 한다.