This paper considers an associative unsupervised domain adaptation learning algorithm for performing semantic segmentation on real urban drive-cam data using photo-realistic synthetic training data. To circumvent the difficulty of collecting and laboriously annotating a large amounts of real urban scene data, large amounts of computer-annotated synthetic training data is provided as a substitute; however, without any consideration to domain mismatch, a significant decreases in prediction performance is observed. Inspired by the recent success of an associative domain adaptation algorithm for simple classification, this algorithm is adapted to semantic segmentation to reduce domain mismatch between training and testing. Considering associative learning for multiple instances within a single high-resolution image and ambiguous and undecided labels in a semantic segmentation training dataset, this adaptation is not straightforward. In this paper, an algorithm is proposed to address such difficulties in adapting associative learning to semantic segmentation by partitioning an image into patches and associating labeled patches with unlabeled patches. The results from the model using SYNTHIA and GTA5 dataset as a source dataset shows state-of-the-art performance on the CityScapes dataset.
본 논문에서는 영상분할을 위한 연상 비지도식 도메인 적응 학습 알고리즘을 소개한다. 실제 이미지의 데이터를 수집하고 영상 분할 레이블링을 하는 과정은 큰 비용이 들기 때문에, 합성이미지를 이용하여 자동으로 픽셀 별 레이블링 하는 방법이 제시되었다. 하지만 도메인 불일치가 일어나기 때문에 영상 분할 성능면에서 큰 저하를 보인다.
최근 영상 분류에서 큰 성능 향상을 이뤄낸 연상 도메인 적응 알고리즘이 영상 분할에 적용되어 학습과 테스트하는 도메인의 갭을 최소화하였다.
영상분할에서 여러 객체가 존재하는 하나의 고해상도 이미지와 모호하고 정해지지않은 레이블을 고려해봤을 때, 기존의 연상 도메인 적응을 영상 분할에 그대로 적용하기 어렵다. 따라서 본 논문에서는 이러한 어려움을 해결하기 위해 장면 분할을 위한 연상 도메인 적응 기법을 소개한다. 해당 알고리즘으로 학습된 모델은 SYNTHIA와 GTA5 합성 데이터셋을 이용했을 때 실제 데이터셋 CityScapes에서 영상분할을 위한 비지도식 도메인 적응 학습 알고리즘 중 가장 높은 성능을 보였다.