In this thesis, we propose a novel video object segmentation algorithm based on pixel-level matching using Convolutional Neural Networks (CNN). Our network architecture combines a generative model with a discriminative one. The generative Siamese structure encodes the pixel-level similarity between query and search inputs. A target objectness is then discriminated from the background by decoding the matching scores. The feature instances exploited for similarity encoding are computed and compressed from multiple layers with different depths to take advantages of both spatial details and semantic information. Thanks to the feature compression technique, we can lighten the network and boost the computational efficiency (about 8 ms for one feed forward). In the online sequence, all the frames are matched with the initial query frame using fine-tuned pixel-level matching network. To the best of our knowledge, this is the first approach targeting mask propagation using a deep learning network. Experiments on large datasets demonstrate the effectiveness of our combinative model achieving state-of-the-art results. In addition, we introduce the transferability of our network to the different domain such as infrared data. Finally, the applicability of our network is validated through the newly designed video stabilization and co-segmentation.
첫 번째 프레임을 비디오의 끝까지 전이 시킴으로써 비디오 전체를 전경과 후경으로 나누는 작업은 비디오 안정화, 트래킹, 주행 가능한 영역의 인식 등과 같이 여러 어플리케이션의 전처리 과정으로 사용될 수 있기 때문에 매우 중요한 작업이다. 하지만 기존의 방법, 즉 픽셀 단위의 관계를 에너지 방정식으로 정의하고 이를 최적화 시키는 방법은 후경의 영향으로부터 매우 민감하여 성능이 떨어지는 경향이 있었다.
본 학위 논문에서는 처음으로 비디오 오브젝트 세그멘테이션 영역에 나선형 신경망 구조로 새롭게 디자인 된 픽셀 단위의 매칭 네트워크를 적용 시킴으로써, 후경으로부터의 영향에 좀 더 강인하게 대처 가능한 알고리즘을 제시하였다. 네트워크의 낮은 레이어로부터의 세부적인 정보와 깊은 레이어부터의 의미적인 정보를 같이 활용함으로써 성능을 극대화 할 수 있었고, 이에 따른 실험 결과는 위의 주장을 뒷받침 하고 있다. 다음으로, 예비 학습과 온라인 학습의 두 단계의 학습 과정을 통하여 학습 데이터의 부족으로 인한 오버피팅 문제를 해결 할 수 있었다.
본 학위 논문에서는 세 가지의 어플리케이션을 제시하였다. 첫 번째는, 열 화상 카메라를 사용한 주행가능한 영역의 인식 알고리즘이다. 이를 통하여, 한 장의 온라인 학습만으로 네트워크의 도메인이 RGB영역에서 센서 도메인으로 전이 가능함을 보였다. 다음으로, 본 논문에서 제시하는 비디오 오브젝트 세그멘테이션 방법을 비디오 안정화의 전처리 과정으로 적용 시킴으로써, 네트워크의 이용 가능성을 확인 하였다. 끝으로, 코세그멘테이션을 본 논문에서 제시하는 네트워크에 적용시킴으로써 후경의 급격한 변화에도 강인하게 반응할 수 있음을 실험적으로 제시하였다.