Semantic segmentation is the process of assigning a class label to each pixel in an image. This is a very challenging task, because in contrast to object detection, which only determines the presence or not of a certain object, semantic segmentation involves parsing a scene by distinctively defining the boundaries of each object, while labeling each pixel with its corresponding category.
This thesis proposes a method to adjust the contextual information contained in a pixel neighborhood, without changing the size of the input patch. Instead, the input image size is adjusted accordingly to the depth value associated with the pixel to be labeled. The selected patch is fed to a convolutional neural network, where distinctive features are learned. Finally, the resulting predictions are rened with a coherent clustering of superpixels.
The NYUv2 dataset was used to test the performance of the proposed algorithm, which has a total of 1449 labeled RGBD images, with 894 categories. The dataset was split into 795 training images and 654 test images. The proposed method gives state of the art results, with a classification accuracy of 65.1% while being also faster than other algorithms.
의미론적 영상 분할이란 영상 내의 각각의 픽셀에 대하여 각 클래스에 대응하는 레이블을 할당하는 작업이다. 이 작업은 단지 영상 내에 물체가 존재하는지 아닌지를 판단하는 물체 검출과는 다르게, 각 물체의 경계면을 정의해야 하기 때문에 더 어려운 작업이라 할 수 있다.
이 논문에서는 영상 내의 입력 패치의 크기 변화를 하지 않고 물체와 카메라의 거리에 따라 컨텍스트 정보를 선택하는 방법을 제안한다. 일반적으로 물체와의 거리가 멀어지면 물체의 크기가 작아지므로 작은 크기의 패치로 물체의 특징을 얻기 유리하다. 반면, 거리가 가까워지면 물체의 크기가 커지므로, 큰 크기의 패치를 사용해야 그 물체에 대한 특징을 얻기 유리하다. 이러한 원리를 이용하여 거리에 따라 선택된 컨텍스트 정보를 콘볼루션 신경망의 입력으로 하여 학습을 한다. 학습된 파라미터를 이용하여 결과를 도출하고, 마지막으로 인접한 슈퍼픽셀의 클러스터링을 통하여 결과를 보정해준다.
알고리즘의 성능을 평가하기 위하여 NYUv2 데이터셋을 사용하였다. NYUv2 데이터셋은 1449장의 레이블된 RGBD 영상을 포함하고 있으며 총 894개의 물체가 존재한다. 데이터셋은 795개의 학습 영상과 654개의 테스트 영상으로 나누어주었다. 제안하는 알고리즘은 다른 최신의 알고리즘보다 추론 과정이 빠를 뿐만 아니라, 분류의 정확도 면에서도 65.1%로, 타 알고리즘에 비하여 우수한 성능을 보였다.