Training the semantic segmentation models require extensive annotated data, which is challenging to obtain due to its labor-intensive and expensive nature. To address this problem, photorealistic data rendered from simulators and game engines with precise pixel-level semantic annotations are used to train segmentation networks. However, models trained on synthetic data may not perform well on real-world data due to cross-domain differences. In this dissertation, we present an extensive analysis of the causes of the gaps between the source and the target domain and introduce novel domain adaptive semantic segmentation frameworks to minimize the domain discrepancy for semantic segmentation task.
In chapter 2, we present to bridge the domain gaps with self-supervision from the target data itself. Previous methods attempted to adapt models from the source data to the target data directly (to reduce the inter-domain gaps), but they fail to consider the large distribution gap among the target data itself (intra-domain gaps). To address this limitation, we propose a two-step self-supervised domain adaptation approach that addresses both the inter-domain and the intra-domain gaps. First, we adapt the model to the target domain and use an entropy-based ranking function to divide it into an easy and hard split. To reduce the intra-domain gap, we suggest using a self-supervised adaptation technique from the easy to the hard split.
In chapter 3, we tackle a more practical open compound domain adaptation (OCDA) case where the target domain as the compound of multiple unknown homogeneous subdomains. The goal of OCDA is to minimize the domain gap between the labeled source domain and the unlabeled compound target domain, which benefits the model generalization to the unseen domains. Current OCDA for semantic segmentation methods adopt manual domain separation and employ a single model to simultaneously adapt to all the target subdomains. However, adapting to a target subdomain might hinder the model from adapting to other dissimilar target subdomains, which leads to limited performance. In this work, we introduce a multi-teacher framework with bidirectional photometric mixing to separately adapt to every target subdomain. First, we present an automatic domain separation to find the optimal number of subdomains. On this basis, we propose a multi-teacher framework in which each teacher model uses bidirectional photometric mixing to adapt to one target subdomain. Furthermore, we conduct an adaptive distillation to learn a student model and apply consistency regularization to improve the student generalization.
In chapter 4, we leverage motion priors from videos and propose a motion-guided domain adaptation (MoDA) to address the domain gap issues. Our moDA self-supervised 3D object motion to learn effective representations in the target domain. MoDA differs from previous methods that use optical flow to establish consistency regularization. First, we propose a motion mask pre-processing module (MMP) to extract the object-level motion masks from the object motion map. The object-level motion masks may not accurately identify all the moving instances. Therefore, directly using these object-level motion masks to correct the target pseudo labels is not reliable. To handle this issue, we design a self-supervised object discovery (SOD) to update the object-level motion masks in order to accurately localize the moving objects. Moreover, we propose a semantic label mining (SLM) to improve the target noisy pseudo labels with guidance from the updated object-level motion masks.
In chapter 5, we extend MoDA into MoDA-v2 which deals separately with the domain alignment on the foreground and background categories using different strategies. For the foreground categories, MoDA-v2 uses object motion to align the domain gap with two novel modules: motion-guided self-training (MST) and moving object label mining (MLM), taking the pixel-level and object-level guidance from the motion, respectively. For the background alignment, MoDA-v2 introduces background adversarial training (BAT), which contains a background category-specific discriminator. Experimental results on multiple benchmarks highlight the effectiveness of MoDA-v2 against existing approaches. Moreover, MoDA-v2 is versatile and can be used in conjunction with existing state-of-the-art approaches to further improve performance.
의미론적 분할 모델을 훈련하려면 광범위한 주석이 달린 데이터가 필요하며, 이는 노동 집약적이고 비용이 많이 드는 특성 때문에 얻기 어렵습니다. 이 문제를 해결하기 위해 정확한 픽셀 수준의 의미 주석을 가진 시뮬레이터와 게임 엔진에서 렌더링된 사실적인 데이터를 사용하여 분할 네트워크를 훈련합니다. 그러나 합성 데이터에 대해 훈련된 모델은 도메인 간 차이로 인해 실제 데이터에서 잘 수행되지 않을 수 있습니다. 본 논문에서는 소스 도메인과 대상 도메인 간의 격차의 원인에 대한 광범위한 분석을 제시하고 의미 세분화 작업에 대한 도메인 불일치를 최소화하기 위해 새로운 도메인 적응형 의미 세분화 프레임워크를 소개합니다.
2장에서는 대상 데이터 자체의 자체 감독으로 도메인 격차를 해소하기 위해 제시합니다. 이전 방법은 소스 데이터에서 대상 데이터로 모델을 직접 조정하려고 시도했지만(도메인 간 격차를 줄이기 위해) 대상 데이터 자체 사이의 큰 분포 격차(도메인 내 격차)를 고려하지 못했습니다. 이러한 한계를 해결하기 위해 도메인 간 및 도메인 내 격차를 모두 해결하는 2단계 자체 감독 도메인 적응 접근 방식을 제안합니다. 먼저, 우리는 모델을 대상 도메인에 적응시키고 엔트로피 기반 순위 함수를 사용하여 쉬운 분할과 어려운 분할로 나눕니다. 도메인 내 격차를 줄이기 위해 쉬운 분할에서 하드 분할로 자체 감독 적응 기술을 사용할 것을 제안합니다.
3장에서, 우리는 알려지지 않은 여러 동종 하위 도메인의 화합물인 대상 도메인이 더 실용적인 개방형 복합 도메인 적응(OCDA) 사례를 다루었습니다. OCDA의 목표는 레이블링된 소스 도메인과 레이블링되지 않은 복합 대상 도메인 사이의 도메인 격차를 최소화하는 것이며, 이는 보이지 않는 도메인에 대한 모델 일반화에 도움이 됩니다. 의미론적 분할 방법에 대한 현재 OCDA는 수동 도메인 분리를 채택하고 단일 모델을 사용하여 모든 대상 하위 도메인에 동시에 적응합니다. 그러나 대상 하위 도메인에 적응하면 모델이 다른 다른 대상 하위 도메인에 적응하는 데 방해가 되어 성능이 제한될 수 있습니다. 이 연구에서, 우리는 모든 대상 하위 도메인에 개별적으로 적응하기 위해 양방향 광도계 혼합이 있는 다중 교사 프레임워크를 소개합니다. 먼저 최적의 하위 도메인 수를 찾기 위해 자동 도메인 분리를 제시합니다. 이를 바탕으로, 우리는 각 교사 모델이 양방향 광도 혼합을 사용하여 하나의 대상 하위 도메인에 적응하는 다중 교사 프레임워크를 제안합니다. 또한 학생 모델을 학습하기 위해 적응 증류를 수행하고 일관성 정규화를 적용하여 학생 일반화를 개선합니다.
4장에서는 비디오의 모션 사전을 활용하고 도메인 격차 문제를 해결하기 위한 모션 유도 도메인 적응(MoDA)을 제안합니다. 우리의 moDA는 대상 도메인에서 효과적인 표현을 배우기 위해 자체 감독된 3D 객체 모션을 학습합니다. MoDA는 일관성 정규화를 설정하기 위해 광학 흐름을 사용하는 이전 방법과 다릅니다. 먼저 객체 모션 맵에서 객체 수준 모션 마스크를 추출하기 위한 모션 마스크 전처리 모듈(MMP)을 제안합니다. 개체 수준 모션 마스크가 모든 이동 인스턴스를 정확하게 식별하지 못할 수 있습니다. 따라서 대상 유사 레이블을 수정하기 위해 이러한 객체 수준 모션 마스크를 직접 사용하는 것은 신뢰할 수 없습니다. 이 문제를 처리하기 위해 움직이는 물체를 정확하게 현지화하기 위해 물체 수준 모션 마스크를 업데이트하는 자체 감독 물체 발견(SOD)을 설계합니다. 또한 업데이트된 객체 수준 모션 마스크의 지침으로 대상 노이즈가 많은 유사 레이블을 개선하기 위한 의미론적 레이블 마이닝(SLM)을 제안합니다.
5장에서, 우리는 MoDA를 MoDA-v2로 확장합니다. MoDA는 다른 전략을 사용하여 전경 및 배경 범주의 도메인 정렬을 개별적으로 처리합니다. 전경 범주의 경우, MoDA-v2는 객체 모션을 사용하여 도메인 갭을 두 개의 새로운 모듈, 즉 모션 유도 자가 훈련(MST) 및 이동 객체 레이블 마이닝(MLM)과 정렬하여 각각 모션에서 픽셀 레벨 및 객체 레벨 지침을 취합니다. 배경 정렬을 위해 MoDA-v2는 배경 범주별 판별기를 포함하는 배경 적대적 훈련(BAT)을 도입합니다. 여러 벤치마크에 대한 실험 결과는 기존 접근 방식에 대한 MoDA-v2의 효과를 강조합니다. 또한 MoDA-v2는 다목적이며 기존의 최첨단 접근 방식과 함께 사용하여 성능을 더욱 향상시킬 수 있습니다.