Object detection is important in image understanding and analysis. The object detection method usually uses detection using a bounding box, and assigns a class label to each box.
First, we introduce about salient region segmentation, which is the first work published at a conference, is introduced. The main idea is to represent a saliency map of an image as a linear combination of high-dimensional color space where salient regions and backgrounds can be distinctively separated. This is based on an observation that salient regions often have distinctive colors compared to the background in human perception, but human perception is often complicated and highly nonlinear. By mapping a low dimensional RGB color to a feature vector in a high-dimensional color space, we show that we can linearly separate the salient regions from the background by finding an optimal linear combination of color coefficients in the high-dimensional color space. Our high dimensional color space incorporates multiple color representations including RGB, CIELab, HSV and with gamma corrections to enrich its representative power. To further improve the performance of our saliency estimation, our second key idea is to utilize relative location and color contrast between superpixels as features and to resolve the saliency estimation from a trimap via a learning-based algorithm. The additional local features and learning-based algorithm complement the global estimation from the high-dimensional color transform-based algorithm. This work has more than 150 citations so far, and the idea is used in various computer vision fields.
However, as more and more image understanding techniques using deep learning were published and achived the state-of-the-art performance, many researchers made great efforts to apply deep learning to object detection. Object detection is composed of various structures, but the most important part is the backbone network, which extracts image features. In this thesis, we introduce a simple but effective backbone network, the deep pyramidal residual network (PyramidNet), to extract a better image features compared to residual networks. The main contribution of PyramidNet is that it maximizes the regularization ability by increasing the dimension gradually for each layer. In this thesis, we describe the novel building block in residual networks, which is our main contribution during this research.
We also introduce the research about region proposal networks, one of the most important parts of the object detection architecture. We successively generate proposals by using multiple RPNs, which helps detect regions that are hard to detect with a single RPN owing to the limitations of current algorithms, such as non-maximum suppression and smooth $l_1$-loss regression. Experimental results on the PASCAL VOC and MS COCO datasets showed that the detection performance improves with the proposed StackRPN when the number of RPNs is increased with a comparable inference time and memory.
Finally, we conduct experiments to maximize object detection performance by synthesizing the contents of research during the Ph.D. As a result of experiments using PyramidNet, and StackRPN, the performance of COCO dataset is significantly improved compared to existing detection methods.
물체 검출은 영상 이해 및 분석 분야에서 매우 중요한 문제로 자리잡고 있다. 물체 검출 방식은 보통 바운딩 박스를 사용하여 탐지하고, 각 박스에 클래스 레이블을 지정한다.
먼저, 본인이 학회에서 발표한 첫 번째 논문인 관심 영역 분할에 대한 연구에 대해 소개한다. 주요 아이디어는 관심 영역과 배경을 구별할 수 있는 고차원 색 공간의 선형 결합으로 영상의 관심 맵을 표현하는 것이다. 이것은 관심 영역이 배경에 비해 특유의 색상을 갖는 경우가 많으며, 인간의 지각은 보통 복잡하고 비선형 적이라는 관측을 기반으로 설계된 것이다. 저차원 RGB 색을 고차원 색 공간의 특성 벡터에 매핑함으로써 고차원 색 공간에서 최적의 색 계수 조합을 찾아서 관심 영역과 배경을 선형 조합으로 구분할 수 있음을 보여준다. 본 방법의 고차원 컬러 공간은 RGB, CIELab, HSV 및 감마 보정과 같은 다양한 색상 표현을 통합한다. 두 번째 주요 아이디어는 슈퍼 픽셀 간의 상대적인 위치와 색상 대비를 특징으로 활용하고 학습 기반 알고리즘을 통해 Trimap에서 관심 영역을 추정하는 것이다. 추가된 로컬 특징과 학습 기반 알고리즘은 고차원 색 변환 기반 알고리즘의 전역적인 결과를 보완한다. 이 연구는 현재까지 150개 이상의 인용횟수를 기록하고 있으며, 이 아이디어는 다양한 컴퓨터 비전 분야에서 사용되고 있다.
그러나, 딥 러닝을 사용하는 영상 분석 기술이 점점 더 많이 발표되고 최고 성능을 기록하게 되면서, 많은 연구원들이 물체 검출에 딥 러닝을 적용하기 위해 많은 노력을 기울였다. 물체 검출은 여러 구조로 이루어져 있지만, 가장 중요한 부분은 영상 특징을 추출하는 백본 네트워크이다. 본 논문에서는 심플하지만 효과적인 백본 네트워크인 피라미드넷 (PyramidNet) 을 사용하였고, 잔여 네트워크와 비교하여 더 우수한 영상 특징을 추출하게 되었다. 피라미드넷의 주요 포인트는 각 레이어에 대해 점진적으로 차원을 증가시켜 정규화 기능을 최대화한다는 것이다. 본 논문에서 본인은 이 연구를 수행할 동안 본인이 주로 수행한 새로운 빌딩 블록에 대해 소개하고, 이를 분석한다.
세 번째로, 물체 검출 구조에서 가장 중요한 부분 중 하나인 지역 제안 네트워크에 대한 연구를 소개한다. 우리는 다중 RPN을 사용하여 바운딩 박스 후보군을 연속적으로 생성하는 StackRPN 방법을 제한다. 이것은 non-maximum suppression과 smooth $l_1$ 로스와 같은 현재 알고리즘의 한계로 인해 단일 RPN으로는 힘든 여러 물체의 동시 검출에 대해 성능 향상 효과를 보여준다. PASCAL VOC 및 MS COCO 데이터셋에 대한 실험 결과, 비슷한 연산 시간과 메모리로 우리의 방법이 효과적이라는 것을 보여주었다.마지막으로, 박사과정 기간동안의 연구 내용을 총합하여 물체 검출 성능을 극대화시키는 실험을 수행하였다. 피라미드넷, 그리고 스택 RPN 방법을 사용하였고, 그 결과 COCO 데이터셋에서 그 성능이 현존하는 방법에 비해 월등이 향상되는 효과를 보여주었다.