Recently, in the video processing field, as in the image processing field, deep learning is actively used.
Unlike the image processing field that mainly uses 2D convolution-based CNNs, 3D convolution-based
CNNs are required to extract additional time-dimensional information of video. However, due to the
large computational cost of 3D convolution and the large number of learning parameters, researches using
a single-stream CNN, based on 3D convolution, are rare in the video processing field. In this study, we
propose a 3D convolution with a new structure for video processing tasks. Through the proposed 3D
convolution, the computational cost and the number of learning parameters can be reduced compared
to general 3D convolution, and better performance than the previously proposed 3D convolution can be
achieved. Also, we will perform performance verification of the proposed 3D convolution for three video
processing tasks: Human Action Recognition, Video Object Segmentation, and Video Inpainting.
최근 영상 처리 분야에서도, 이미지 처리 분야에서와 마찬가지로, 딥러닝을 활발히 활용하고 있다. 2D 컨볼
루션 기반의 CNN을 주로 활용하는 이미지 처리 분야와 달리, 영상 처리에서는 추가적인 시간 차원 정보를
추출하기 위해, 3D 컨볼루션 기반의 CNN이 요구된다. 하지만 3D 컨볼루션의 큰 연산양과 많은 학습 파라
미터 수로 인해, 영상 처리 분야에서는 3D 컨볼루션에 기반한 단일 스트림 CNN을 활용한 연구가 드물다.
하여 본 연구에서는 영상 처리를 위한 새로운 구조의 3D 컨볼루션을 제안한다. 제안하는 3D 컨볼루션을
통해 일반적인 3D 컨볼루션 보다 연산양 및 학습 파라미터의 수를 줄일 수 있을 뿐만 아니라, 기존에 제안된
3D 컨볼루션 보다 더 좋은 성능을 괴할 수 있다. 본 연구에서는 사람 행동 인지, 영상 객체 세그멘테이션
그리고 영상 회화의 세가지 영상 처리 태스크에 대해 제안하는 3D 컨볼루션의 성능 검증을 수행할 것이다.