서지주요정보
Deep learning approaches for video frame interpolation and super resolution = 심층학습을 통한 영상 보간법 및 초해상도 기술
서명 / 저자 Deep learning approaches for video frame interpolation and super resolution = 심층학습을 통한 영상 보간법 및 초해상도 기술 / Jinsoo Choi.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035632

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 20040

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, various social networking services (SNS) and video platforms have gathered much video data. There have been reports claiming approximately 400 hours worth of videos being uploaded to the web every minute, that is leading to an estimation that videos will take over 82% of the Internet traffic by 2022. Due to this phenomenon, many companies are focusing on video related applications and services. In this era of abundant video data, unsupervised learning from videos are gathering much attention as well. We propose the following research on video frame interpolation for stabilization and super resolution. First, we introduce full-frame video stabilization via iterative frame interpolation. Video stabilization is a fundamental and important technique for higher quality videos. Prior works have extensively explored video stabilization, but most of them involve cropping of the frame boundaries and introduce moderate levels of distortion. We present a novel deep approach to video stabilization which can generate video frames without cropping and low distortion. The proposed framework utilizes frame interpolation techniques to generate in-between frames, leading to reduced inter-frame jitter. Once applied in an iterative fashion, the stabilization effect becomes stronger. A major advantage is that our framework is end-to-end trainable in a self-supervised manner. We show the advantages of our method through quantitative and qualitative evaluations comparing to the state-of-the-art methods. Second, we propose a real-time video stabilization method via self-supervised learning. Unlike the majority of methods that run offline, our approach is designed to run in real-time. Our framework consists of a rigid transformation estimation between given frames for global stability adjustments, followed by scene parallax reduction via smoothed flow for further stability. Then, an inpainting module fills in the missing margin regions created during stabilization, in order to reduce the amount of margin cropping as post-processing. These sequential steps reduce distortion and margin cropping to a minimum while enhancing stability. Hence, our approach outperforms state-of-the-art methods as well as offline methods that require camera trajectory optimization. Third, we propose a joint super resolution (SR) and frame interpolation algorithm which can be applied to video reconstruction and compression. Previous works have addressed super resolution and frame interpolation as separate topics. Although significant advances have been made for each field of research, the joint task has not been explored extensively. A naive solution of applying SR and frame interpolation (and in reverse order) is sub-optimal. We propose a joint SR and frame interpolation model via permutation invariance. Our approach demonstrates favorable results to sequential application of state-of-the-art SR and frame interpolation methods. Lastly, we conduct research on solving the limitations of frame interpolation. The remaining challenges for frame interpolation are fast object motion and nonlinear motion. In this work, we address the nonlinear motion via modeling with three input frames instead of the typical two frame input. As for fast object motion, we take a data-driven approach by augmenting data samples on-the-fly via adding objects to the video frames conveying flying motion. In the appendix, we propose video summarization via natural language and the problem of composing a story out of multiple short video clips. These tasks use progressive learning and optimization techniques respectively.

최근 여러 소셜 네트워킹 서비스와 영상 플랫폼에 수많은 비디오 영상들이 업로드되면서 인터넷상의 영상 데이터가 넘치고 있다. 분당 400시간가량의 비디오가 업로드되고 있다는 통계가 있을 정도로 2022년까지 비디오 영상이 인터넷 통신량의 82%를 차지할 것이라는 전망이 나오고 있다. 이러한 현상 때문에 많은 기업이 비디오 관련 서비스에 초점을 맞추고 알고리즘 개발에 몰두하고 있다. 수많은 영상 데이터에 접근이 가능한 이 시점에서 자기지도 학습을 통한 딥러닝 기술이 주목받고 있다. 우리는 다음과 같이 비디오 영상 보간법을 통한 안정화 및 초해상도 기술에 대해 다루었다. 첫째, 비디오 스트리밍을 위한 흔들림 보정 기술로, 영상 보간을 통한 안정화 기술을 제안한다. 기존의 비디오 안정화 기술은 흔들리는 영상에 의해 안정화가 이루어진 후 영상의 가장자리가 비어 보이는 현상이 나타난다. 또, 영상 왜곡에 취약한 특징이 나타난다. 우리의 알고리즘은 비디오를 반복적으로 프레임 사이의 보간을 통해 안정화하는 기법을 사용한다. 영상 보간은 자기지도 (비지도) 학습으로 이루어져, 기존의 지도 학습을 위한 대량 데이터 세트를 구축할 필요가 없다. 반복적인 영상 보간 횟수를 늘릴수록 안정화의 강도가 커지는 것을 확인하였고, 기존의 기법들보다 성능이 월등함을 보였다. 둘째, 자기지도 학습을 통한 실시간 영상 안정화 기술을 제안한다. 영상 보간을 통한 비디오 안정화 성능은 광학 흐름에 의해 크게 좌우되는 단점을 지닌다. 광학 흐름의 부정확성이 일어날 때 영상의 질이 떨어질 수 있고 안정화의 질이 떨어질 수 있다. 즉, 이러한 단점을 원천적으로 막기 위해 이웃하는 영상 프레임 간의 평균을 취하는 방법으로 안정화를 적용한다. 먼저, 프레임 사이의 이동, 회전을 추론하는 딥 네트워크와 공간적 편평화를 거친 광학 흐름 맵을 추론하는 딥 네트워크를 제안한다. 또, 안정화를 거친 후 영상의 가장자리를 채우는 영상 도장 심층 네트워크를 제안한다. 앞서 언급된 세 심층 네트워크를 거쳐 영상 안정화를 적용하여 기존 기법들보다 월등한 성능을 보인다. 셋째, 영상 보간법과 함께 초해상도 기술을 융합하여 영상 복구 및 압축에 관한 연구를 제안한다. 기존의 연구는 초해상도와 영상 보간법을 분리하여 서로 다른 연구 영역으로 보았다. 각각의 연구에서 좋은 성능을 보이지만, 융합된 기술에 관해서는 연구가 많지 않다. 간단하게 초해상도 기법과 영상 보간법을 순서대로 혹은 역순서로 수행하는 것은 최적의 방법이 아니다. 우리는 순서 불변성 이론을 이용하여 영상 보간과 초해상도를 위한 특징점 추출을 수행하는 심층학습 모델을 제안한다. 본 방법으로 기존 방법들의 조합으로 얻은 결과보다 높은 성과를 보인다. 마지막으로, 기존 영상 보간법의 한계를 해결하고자 연구하였다. 기존의 영상 보간법은 빠르거나 비선형적 운동을 하는 물체에 대해 취약성을 보여왔다. 본 연구에서는 비선형 운동을 모형화하고, 데이터를 통한 빠른 움직임에 대한 학습으로 기존의 한계를 극복하고자 한다. 구체적으로, 통상적으로 두개의 영상 프레임을 이용하던 연구와 달리 비선형 운동에 대한 적합한 모형화를 위하여 세개의 영상 프레임을 이용해야 함을 보이고, 모델을 제시한다. 빠른 움직임에 대해서는 실시간으로 빠르게 움직이는 물체를 영상에 삽입하여 데이터를 생성하고 학습하는 기법을 사용한다. 부록으로, 자연어를 통한 비디오 요약 기술 및 비디오의 구성 해석을 통한 비디오 스토리 알고리즘을 제안한다. 각각의 연구에서 점진적 학습과 최적화 기법을 사용한 알고리즘을 선보인다.

서지기타정보

서지기타정보
청구기호 {DEE 20040
형태사항 xi, 103 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최진수
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "Deep Iterative Frame Interpolation for Full-frame Video Stabilization". ACM Transactions on Graphics,
Including appendix.
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 92-100
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서