Regularization based on negative view for robust unsupervised domain adaptation = 강건한 비지도 영역 적응을 위한 부정적 시야 기반의 정규화
서명 / 저자 Regularization based on negative view for robust unsupervised domain adaptation = 강건한 비지도 영역 적응을 위한 부정적 시야 기반의 정규화 / Joonhyeok Jang.
발행사항 [대전 : 한국과학기술원, 2024].
In the realm of Unsupervised Domain Adaptation (UDA), numerous endeavors have leveraged the attention mechanism and capabilities of Vision Transformers (ViTs), in addition to Convolutional Neural Networks. ViT-based approaches have notably outperformed CNN-based counterparts, yet a challenge arises from the patch-based structure inherent in ViT. Concretely, ViT heavily relies on local features within image patches, leading to diminished robustness when confronted with out-of-distribution (OOD) samples. To tackle the challenge, we introduce an unsupervised regularizer tailored for UDA scenarios. Our approach involves generating images with disrupted spatial context through negative augmentation, termed negative views, utilizing target-domain samples. Subsequently, we devise the Negative View-based Contrastive (NVC) regularizer, which separates the negative views from the original target samples in latent space. When integrated into existing UDA methods, the regularizer encourages ViT to prioritize context relations between local patches, enhancing the robustness of ViT. Our NVC regularizer is simply applicable to target domain which lacks labels, and it successfully raises the performance of existing baseline UDA method on a variety of established benchmarks. Furthermore, we introduce a novel dataset, Retail-71, comprising 71 classes of images of products commonly found in convenience stores. Notably, the domain gap between source and target domain in Retail-71 stems from hand occlusion and motion blur in samples. Hence, higher accuracy of testee model means its better robustness to hand occlusion and motion blur. Our experiments demonstrate the effectiveness of NVC regularizer in this specific domain, not only in existing domain. Collectively, the outcomes showcase the effectiveness of our suggested regularizer in enhancing the robustness of transformer within the UDA context.

비지도 영역 적응 분야에서 시각 변환기 기반의 다양한 시도가 합성곱 신경망을 능가해왔다. 그러나 패치 기반 구조를 지닌 변환기는 이미지 패치에 존재하는 국소적 특성에 강하게 의존하며 분포 밖 샘플에 대한 강건함 저하가 유발된다는 문제가 존재한다. 이를 완화하고자 본 논문에서는 비지도 영역 적응 분야에 적용 가능한 부정적 시각 기반의 대조적 정규화 함수를 제안함으로써 부정적 시각 이미지와 본래 이미지를 멀어지게 하는 방법으로 변환기의 강건함을 개선한다. 해당 함수는 다른 비지도 영역 적응 기법에 간단하게 부착하여 적용가능하며 이때 학습되는 변환기는 국소적 패치 사이의 맥락 관계에 집중하도록 장려되고, 강건함이 개선된다. 추가로 본 논문에서는 시중에서 흔히 보이는 상품들로 구성된 새로운 데이터셋 리테일-71을 제안하는데, 원천 영역과 목표 영역 사이의 간격이 주로 손에 의한 가려짐이나 모션 블러로부터 발생한다는 특징을 지닌다. 그러므로 이 데이터셋에서의 높은 정확도는 가려짐과 모션 블러에 강건함을 의미한다. 기존의 데이터셋과 새로 제안된 데이터셋에서 분석 실험을 시행한 결과, 제안된 정규화 함수가 다른 비지도 영역 적응 기법에 부착되어 성공적으로 성능을 향상시키는 결과를 보였다.


청구기호 {MEE 24010
형태사항 vi, 46 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장준혁
지도교수의 영문표기 : Daeshik Kim
지도교수의 한글표기 : 김대식
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 41-44
주제 Deep learning
Unsupervised domain adaptation
Negative augmentation
Vision transformer
심층 학습
비지도 영역 적응
부정적 증강
시각 변환기





