서지주요정보
Image retargeting and matting for new generation display = 차세대 디스플레이를 위한 영상 리타겟팅 및 매팅
서명 / 저자 Image retargeting and matting for new generation display = 차세대 디스플레이를 위한 영상 리타겟팅 및 매팅 / Donghyeon Cho.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038455

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19118

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As technology advances, new types of displays such as flexible screens or modular TV have emerged. Along with these hardware technologies, software must also be developed to fully utilize those displays. In this dissertation, I deal with content-aware image and video retargeting techniques that are essential in changing aspect ratios of the display, and matting, a key technology for movie and image editing. Content-aware image retargeting is a technique that preserves the main object in the image as much as possible when changing the aspect ratio of the image. Video matting is a technique for estimating the transparency of the foreground designated by the user. Image retargeting and matting are performed through visual scene understanding such as semantic information, temporal information, structure of foreground object and depth map in an image. The contributions of this dissertation are as follows. First, to maintain the aspect ratio of semantically important parts when performing image retargeting, we utilize high-level features based on deep learning. So far, retargeting methods have used low-level features, and recently, they have begun to use pre-trained deep-learning networks. This is because until now there has been no way to learn deep learning networks for retargeting due to the lack of datasets for retargeting. In this paper, we propose an end-to-end deep learning network and a weakly-supervised training method that uses only image-level annotation to perform retargeting. Owing to visual understanding via high-level features, the proposed method preserves the semantic area better than conventional methods. Second, extending single image retargeting to video retargeting is not straitforward. This is because it is difficult to simultaneously satisfy "content preservation", "spatio-temporal consistency" and "maintaining aspect ratio of the main object" in the video. In this dissertation, I recognize that the importance of the three elements mentioned above differs according to the characteristics of the video, and appropriately adjusts the three factors. I also propose a recurrent deep learning model to deal with temporal information and introduce a dataset construction method for video retargeting. Third, I propose a single image matting method based on deep learning. I observe that different image matting techniques work well depending on the structure of foreground object boundaries. Specifically, nonlocal based methods are good for long hair, and local based methods for solid boundaries. Therefore, this study suggests a deep learning based matting method that adaptively works according to foreground boundary structure. The proposed method takes initial alpha mattes and a RGB image obtained from the closed form matting and the KNN matting, and directly produces a high quality alpha matte. Furthermore, I propose "RGB guided JPEG artifact removal network" for compressed images in JPEG format. Finally, I provide image matting method on light-field image. I propose an algorithm that automatically generates a trimap using a depth map obtained through EPI analysis. Using the automatically generated trimaps and EPI correspondences, I introduce a method of estimating consistent alpha mattes across light-field images. I also create a light-field matting dataset for algorithm evaluation. Through this dissertation, I propose the retargeting and matting methods to fully utilize new generation displays. The proposed methods provide a new paradigm for image and video retargeting, image matting and light-field matting, and are expected to have a significant impact on following researches. In addition, the algorithms proposed in each method can be utilized for other application problems in the field of computer vision.

영상 장치의 하드웨어 기술이 발전하면서 플렉서블 스크린, UHD TV, 그리고 모듈화된 디스플레이와 같은 새로운 종류의 디스플레이가 등장하기 시작하였다. 이러한 하드웨어 기술 발전에 발 맞추어, 이를 잘 활용할 수 있는 소프트웨어 기술의 필요성이 대두 되고 있다. 본 학위 논문에서는 디스플레이의 종횡비가 변하는 환경에서 필수적인 내용 기반 영상 리타겟팅 기술과, 영화 및 영상 편집에 핵심 기술인 영상 매팅 기술에 대해서 다룬다. 내용 기반 영상 리타겟팅이란 영상의 종횡비를 변경 할때 영상내의 주요 물체를 최대한 보존하는 기술이며, 영상 매팅은 사용자가 지정한 전경의 투명도를 추정하는 기술이다. 영상내의 의미론적 정보, 시간적 정보, 전경 물체의 구조 및 거리지도와 같은 시각적 장면 이해를 통하여, 영상 리타겟팅 및 매팅을 수행한다.본 학위 논문의 공헌은 다음과 같다. 첫째로, 영상 리타겟팅을 수행할때 의미적으로 중요한 부분의 종횡비를 잘 유지 시키기위해서, 딥러닝 기반의 고수준 특징을 활용한다. 지금까지 리타겟팅 방법들은 낮은 수준의 특징을 사용해왔고, 최근에 와서야 미리 학습된 딥러닝 네트워크를 사용하기 시작하였다. 이는 리타겟팅을 위한 데이터셋의 부재로 인하여 지금까지는 리타겟팅을 위한 딥러닝 네트워크를 학습시키는 방법이 없었기 때문이다. 본 연구에서는 오직 이미지 레벨 주석만을 이용하여 리타겟팅을 수행하는 약한지도 학습 기반 딥러닝 네트워크 및 학습 방법을 제시한다. 고수준 특징에 의한 시각 주의로 인하여, 제안된 방법은 기존의 방법보다 의미있는 영역을 더 잘 보존한다. 둘째로, 딥러닝 기반 비디오 리타겟팅 기술을 제안한다. 단일 영상 리타겟팅을 비디오로 확장하는 것은 단순하지 않다. 이는 영상내 "내용 보존", "시공간적 일관성" 및 "주요 물체 종횡비 보존" 을 동시에 만족 시키기 어렵기 때문이다. 본 연구에서는, 비디오의 특성에 따라서 세가지 요소들의 중요도가 달라진 다는 것을 인지하고, 각 요소들을 적절하게 조절하는 방법을 제시한다. 또한 시간적 요소들을 다루기 위해 반복적 딥러닝 모델을 제안하며, 비디오 리타겟팅을 위한 데이터셋 구성 방법을 소개한다. 셋째로, 딥러닝 기반의 단일 영상 매팅 방법을 제시한다. 전경 물체 경계 부분의 구조에 따라서 서로 다른 이미지 매팅 기술이 잘 작동하는 것을 관찰하였다. 구체적으로는 긴 머리카락 같은 부분에서는 논로컬 기반 방법 좋으며, 단단한 경계에서는 로컬 기반 방법이 좋다. 따라서 본 연구에서는 전경 경계 구조에 따라서 적응적으로 작동하는 딥러닝 기반 매팅 방법을 제시한다. 제안된 방법은 로컬 및 논로컬 기반 방법들으로 부터 구한 초기값들과 칼라 영상을 입력으로 받아, 직접적으로 고품질의 알파매트를 생성한다. 또한, 제이펙 형식으로 압축된 이미지를 다루기 위해 "칼라 영상 유도 제이펙 왜곡 제거 네트워크"를 제안한다. 마지막으로, 라이트 필드 영상을 이용한 영상 매팅 방법을 소개한다. 우선, 에피폴라 영상 분석을 통해 얻을 수 있는 거리지도를 이용하여, 트라이맵을 자동생성하는 알고리즘을 제시한다. 자동 생성된 트라이맵과 에피폴라 영상의 대응점들을 활용하여 라이트필드 영상간 일관성있는 알파 매팅 추정 방법을 소개한다. 또한 알고리즘 평가를 위해 두 종류의 라이트필드 카메라로 촬영된 다양한 종류의 전경 물체를 포함하는 라이트필드 매팅 데이터셋을 만들었다. 본 학위 논문을 통해 차세대 디스플레이를 최대한 활용하기위한 리타겟팅 및 매팅 방법을 제안한다. 제안된 방법들은 이미지 및 비디오 리타겟팅과 이미지 매팅 및 라이트필드 매팅을 위한 새로운 패러다임을 제공하여, 후속 연구에 큰 영향을 미칠 것으로 예상된다. 또한 각 방법에서 제안된 알고리즘들은 컴퓨터 비전 분야의 다른 응용 문제를 위해서 활용될 수 있다.

서지기타정보

서지기타정보
청구기호 {DEE 19118
형태사항 ix, 82 p : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조동현
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
수록잡지명 : "Deep convolutional neural network for natural image matting using initial alpha mattes". IEEE Transactions on Image Processing, v.28, no 3, 1054-1067(2019)
수록잡지명 : "Automatic trimap generation and consistent matting for light-field images". IEEE transactions on pattern analysis and machine intelligence, v.39, no 8, 1504-1517(2017)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서