서지주요정보
Learning dense pixel features for video understanding and processing = 비디오 이해와 처리를 위한 픽셀 표현 학습
서명 / 저자 Learning dense pixel features for video understanding and processing = 비디오 이해와 처리를 위한 픽셀 표현 학습 / Dahun Kim.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038499

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22025

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Videos offer something that images cannot; it provides motion information, which facilitates visual processing and understanding in human vision. Undoubtedly, the capability to model and process spatial-temporal data is essential to many computer vision tasks such as video editing and segmentation. However, research in video domain has been significantly lagging compared to its image counterpart. Given our dynamic visual world, we study whether existing image-based tasks and algorithms can be studied with videos, especially since motion is an indispensable cue that comes for free for learning visual representations. In this dissertation, we propose a 3D-2D encoder-decoder architecture that can produce dense and pixel-precise results for a suite of video tasks. First, we start with the video completion problems: caption removal and object inpainting tasks. Video completion aims to fill in spatio-temporal holes in videos with plausible content. Despite tremendous progress on deep learning-based inpainting of a single image, it is still challenging to extend these methods to video domain due to the additional time dimension. In this paper, we propose a recurrent temporal aggregation framework for fast deep video inpainting. In particular, we construct an encoder-decoder model, where the encoder takes multiple reference frames which can provide visible pixels revealed from the scene dynamics. These hints are aggregated and fed into the decoder. We apply a recurrent feedback in an auto-regressive manner to enforce temporal consistency in the video results. We propose two architectural designs based on this framework. Our first model is a blind video decaptioning network (BVDNet) that is designed to automatically remove and inpaint text overlays in videos without any mask information. Our BVDNet wins the first place in the ECCV Chalearn 2018 LAP Inpainting Competition Track 2: Video Decaptioning. Second, we propose a network for more general video inpainting (VINet) to deal with more arbitrary and larger holes. Video results demonstrate the advantage of our framework compared to state-of-the-art methods both qualitatively and quantitatively. Then, we propose and study a video panoptic segmentation (VPS), a task that requires assigning semantic classes and track identities to all pixels in a video. A holistic understanding of dynamic scenes is of fundamental importance in real-world computer vision problems such as autonomous driving, augmented reality and spatiotemporal reasoning. In this paper, we propose a new computer vision benchmark: Video Panoptic Segmentation (VPS). To study this important problem, we present two datasets, Cityscapes-VPS and VIPER together with a new evaluation metric, video panoptic quality (VPQ). Also, we propose a strong video panoptic segmentation network (VPSNet), which simultaneously performs classification, detection, segmentation, and tracking of all identities in videos. Specifically, VPSNet builds upon a top-down panoptic segmentation network by adding Fuse and Track heads, respectively learning pixel-level and object-level correspondences between consecutive frames. We further explore the effectiveness of stronger backbones and propose VPSNet++ with novel modifications in fuse head, track head, and panoptic head, each achieving performance gains over the base VPSNet and state-of-the-art results on the Cityscapes-VPS dataset. We further adapt our method with a modern anchor-free detector, which can avoid proposal generation and crop-and-resize operations. Finally, we propose an end-to-end clip-level video segmentation network inspired by Transformer architecture. We present TubeFormer, the first attempt to tackle multiple core video segmentation tasks in a unified manner. Different video segmentation tasks (e.g., video semantic/instance/panoptic segmentation) are usually considered as distinct problems. State-of-the-art models adopted in the separate communities have diverged, and radically different approaches dominate in each task. By contrast, we make a crucial observation that video segmentation tasks could be generally formulated as the problem of assigning different predicted labels to video tubes (where a tube is obtained by linking segmentation masks along the time axis) and the labels may encode different values depending on the target task. The observation motivates us to develop TubeFormer, a simple and effective mask transformer based model that is widely applicable to multiple video segmentation tasks. Our proposed Tube-Former directly predicts video tubes with task-specific labels (either pure semantic categories, or both semantic categories and instance identities), which not only significantly simplifies video segmentation models, but also advances state-of-the-art results on multiple video segmentation benchmarks.

비디오는 이미지와 달리 시각적 처리를 용이하게 하는 모션 정보를 제공한다. 인간의 시각에 대한 이해는 공간-시간 데이터를 모델링하고 처리하는 능력은 영상 편집과 분할과 같은 많은 컴퓨터 비전 작업에 필수적인 요소이다. 하지만 비디오에 관한 연구 도메인은 이미지에 비해 크게 뒤처져 있다. 우리의 역동적인 시각 세계를 고려해 볼 때 특히 기존의 이미지 기반 비전 문제들과 알고리즘이 비디오 입출력에 대해 적용될 수 있는지를 연구한다. 비디오는 시각적 표현을 배우는데 필수불가결한 정보를 제공한다. 본 논문에서 우리는 3D-2D 아키텍쳐를 제안하는데, 이는 일련의 비디오 작업에 대해 조밀하고 픽셀 단위 결과를 생성할 수 있는 인코더 방식 아키텍처이다. 먼저 캡션 제거 및 객체 인페인팅 작업과 같은 비디오 completion문제로의 적용을 확인한다. 비디오 completion은 그럴듯한 콘텐츠로 비디오의 공간을 채우는 것을 목표로 한다. 단일 이미지에 대한 딥러닝 기반 인페인팅의 엄청난 진보에도 불구하고, 이러한 방법을 비디오 도메인으로 확장하는 것은 여전히 어렵다. 본 논문에서, 우리는 반복적인 시간적 집합 프레임워크를 제안한다. 빠른 비디오 처리를 위해 제안된 3D 인코더는 장면 역학에서 드러나는 가시적인 픽셀을 활용한다. 반복 피드백을 자동 회귀 방식으로 적용하여 시행한다. 이를 통해 얻어낸 최종 비디오 결과에서 시간적 일관성이 크게 향상되었다. 우리는 이 프레임워크를 기반으로 두 가지 아키텍쳐 설계를 제안한다. 우리의 첫 번째 모델은 자동으로 제거되고 인페인팅 하도록 설계된 blind video decaptioning network (BVDNet)이다. 마스크 정보 없이 비디오의 텍스트 오버레이. 우리의 BVDNet은 ECCV Charlearn에서 1위를 차지하였다. 둘째, 보다 일반적인 네트워크를 제안한다. Video inpainting network (Vinet)를 통해 더 크고 임의적인 구멍을 처리할 수 있다. 비디오 결과는 질적으로나 양적으로나 기존의 최첨단 기술에 비해 압도적인 성능을 보였다. 셋째, 의미론적 segmentation 필요한 작업인 비디오 팬옵틱 분할(VPS)을 제안하고 연구한다. 이는 동영상의 모든 픽셀까지 클래스 및 identity를 추적하는 문제이다. 역동적인 장면의 전체적인 이해는 기본이다. 자율 주행, 증강 현실 및 시공간과 같은 실제 컴퓨터 비전 문제의 중요성 추리. 본 논문에서, 우리는 새로운 컴퓨터 비전 벤치마크인 비디오 팬옵틱 분할을 제안한다. (VPS). 이 중요한 문제를 연구하기 위해 Cityscapes-VPS 및 VIPER라는 두 가지 데이터 세트를 새로운 데이터 세트와 함께 제시한다. 평가 메트릭, 비디오 팬옵틱 품질(VPQ). 또한 강력한 비디오 파놉틱 분할 네트워크를 제안한다. 모든 신원에 대한 분류, 탐지, 분할 및 추적을 동시에 수행하는 (VPSNet) 영상으로. 특히, VPSNet은 Fuse와 트랙 헤드, 연속 프레임 간의 픽셀 수준 및 객체 수준 대응을 각각 학습한다. 우리는 더 강한 backbone의 효과를 추가로 탐색하고 퓨즈의 새로운 수정과 함께 VPSNet++를 제안한다. Cityscapes-VPS 데이터 세트 결과. 우리는 또한 우리의 방법을 현대적인 anchor-free detector에 적용하는데, 이는 proposal 생성 및 cropping 작업을 피할 수 있다. 마지막으로, 트랜스포머 아키텍처에서 영감을 얻은 엔드 투 엔드 클립 레벨 비디오 분할 네트워크를 제안한다. 여러 핵심 비디오 분할 작업을 통일된 방식으로 처리하기 위한 첫 번째 시도인 TubeForm을 제시한다. 다양한 비디오 분할 작업(예: 비디오 의미/인스턴스/팬옵틱 분할)이 일반적으로 고려된다. 뚜렷한 문제점으로요 분리된 공동체에서 채택된 최첨단 모델은 서로 다르고 급진적으로 발전했다. 각 과제에서는 서로 다른 접근방식이 지배적이다. 대조적으로, 우리는 비디오 분할이 작업은 일반적으로 비디오 튜브에 다른 예측 라벨을 할당하는 문제로 공식화될 수 있다(여기서). 튜브는 분할 마스크를 시간 축을 따라 연결하여 얻을 수 있으며 라벨은 다른 값을 인코딩할 수 있다. 이 관찰은 우리가 간단하고 효과적인 마스크인 TubeFormer를 개발하도록 동기를 부여한다. 이는 여러 비디오 분할 작업에 광범위하게 적용할 수 있는 Transformer 모델이다. 제안된 아키텍쳐는 비디오 분할 모델을 크게 단순화할 뿐만 아니라 여러 비디오 세분화 벤치마크에서 최첨단 결과를 제공한다.

서지기타정보

서지기타정보
청구기호 {DEE 22025
형태사항 viii, 84 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김다훈
지도교수의 영문표기 : In So Kweon
지도교수의 한글표기 : 권인소
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 71-83
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서