서지주요정보
Towards human-level domain adaptation for scene understanding = 장면이해를 위한 인간 수준의 도메인 적응 방법론
서명 / 저자 Towards human-level domain adaptation for scene understanding = 장면이해를 위한 인간 수준의 도메인 적응 방법론 / Inkyu Shin.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042498

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DPD 24002

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The human visual system analyzes the vision data to create meaningful representations, enabling the performance of various tasks. Remarkably, it possesses the capability to autonomously discern and learn from the obtained unseen data by analyzing their pattern and distribution (unsupervised offline adaptation). Furthermore, it demonstrates robust adaptability to real-time incoming data during inference (online adaptation). This adaptability significantly enhances the generalizability and effectiveness of the human visual system in diverse scenarios. In this thesis, we propose to apply these two data-centric adaptation methods to machine vision systems, which are currently vulnerable to changes in data distribution, with the aim of achieving domain adaptive and cost effective human-level computer vision. Below is an abstract summary detail of how this approach is proposed. Firstly, in Chapter 2, we present our pursuit of data-centric unsupervised adaptation (UDA) in machine vision. Our research identifies the crucial role of effectively acquiring and utilizing model outputs, such as pseudo-labels, from unseen target data to enhance adaptation. To this end, we propose a methodology that scales up the data pseudo-labels by meticulously analyzing the patterns and relationships within the pixel outputs of the data. Furthermore, we demonstrate that our approach significantly improves adaptability at both the image and video levels. This is achieved by implementing spatial and temporal scaling strategies, respectively, allowing for more nuanced and effective adaptation across diverse visual contexts. In Chapter 3, our empirical studies reveal that unsupervised adaptation, conducted without any real target data labels as like in Chapter 2, is inherently limited and cannot match the performance of a fully supervised model. While cost-effective, this adaptation approach yields a model whose performance gap compared to its supervised counterpart cannot not be deployed practically. Addressing this challenge, we introduce a novel human-in-the loop active domain adaptation method (Active DA). This method strategically determines areas for labeling within the target data, guided by the model’s analysis on target data. Our findings indicate that labeling a mere $2%$ of pixels in each image can approximate the performance of a supervised model. Additionally, we propose a technique for selecting representative points within this $2%$ threshold (e.g., 40 points per image), demonstrating that this selective approach still yields comparable results to the supervised models without the severe performance degradation. In Chapter 4, we delve into the realm of online adaptation, a pivotal element in our pursuit of human-level adaptability in machine learning models. Online adaptation is characterized by the model’s capacity for bidirectional inference and learning, utilizing target test data in real-time (Test-time DA). This approach necessitates more meticulous analysis of each data sample, as the model aims to adapt by observing only current batch or even a single sample. To enhance the model’s self-supervision on an individual sample basis, we propose two innovative methods. The first method focuses on the generation of improved pseudo labels through the integration and aggregation of multi-modal sensor data. Our findings reveal that the bidirectional interplay between modalities significantly enhances the quality of pseudo labels, thereby bolstering the model’s adaptability during test-time. In scenarios lacking multi-modal data, and consequently accurate pseudo labels, we introduce a second method. This approach involves a straightforward yet effective self-supervision technique, which we term ‘masking and reconstruction’. This method adeptly translates the inherent structure and correlations within the data, leading to a substantial improvement in the model’s performance during test-time adaptation. These methodologies underscore our commitment to advancing the frontiers of online adaptation, ensuring our models remain robust and effective in various tasks. In Chapter 5, we culminate our exploration with the comprehensive framework for unified domain adaptation (UnDA), aimed at attaining the zenith of human-level adaptability in machine learning. This chapter commences with a series of supplementary experiments designed to extend and apply the UDA methodology, initially introduced in Chapter 2, to test-time training and, conversely, to incorporate test-time adaptation (TTA) strategies, as proposed, into the offline training phase. Our empirical evaluations reveal a notable compatibility and synergy between our UDA and TTA approaches. Further, this chapter ventures into the integration of active adaptation strategies to augment the efficacy of our unified domain adaptation framework. A critical challenge emerges in the context of incorporating a human-in-the-loop active adaptation system within this unified framework, since we assume the infeasibility of human labeling in online scenarios. To navigate this obstacle, we leverage the capabilities of a pre-trained, domain-generalized foundation model. This model serves as a surrogate for human-guided labeling, offering robust masking capabilities that are invariant to domain shifts. We demonstrate that pseudo-labels, meticulously refined through both training and test phases under the guidance of the mask from foundation model, exhibit marked improvements. This innovative approach to pseudo-label generation and refinement facilitates a more potent and effective unified adaptation, seamlessly bridging the gap between training and test phases.

인간의 시각 시스템은 시각 데이터를 분석하여 의미 있는 표현을 만들어내어 다양한 작업을 수행할 수 있습니다. 특히, 미처 본 적 없는 데이터의 패턴과 분포를 분석하여 자동으로 식별하고 학습하는 능력(비지도 오프라인 적응)을 갖추고 있습니다. 또한, 추론하는 동안 실시간으로 들어오는 데이터에 대해 강력한 적응성을 보여줍니다(온라인 적응). 이러한 적응성은 인간의 시각 시스템의 다양한 상황에서의 일반화 능력과 효과성을 크게 향상시킵니다. 이 논문에서는, 현재 데이터 분포 변화에 취약한 기계 시각 시스템에 이 두 가지 데이터 중심의 적응 방법을 적용하여, 도메인 적응과 비용 효율적인 인간 수준의 컴퓨터 비전을 달성하고자 합니다. 아래는 이 접근법이 제안된 방식의 요약입니다. 먼저, 2장에서는 기계 시각에서 데이터 중심의 비지도 적응(UDA)을 추구하는 것을 제시합니다. 우리 연구는 미처 본 적 없는 대상 데이터에서 모델 출력(예를 들어, 의사 라벨)을 효과적으로 획득하고 활용하는 것이 적응을 강화하는 데 중요한 역할을 한다는 것을 밝힙니다. 이를 위해, 데이터의 픽셀 출력 내부의 패턴과 관계를 면밀하게 분석하여 데이터 의사 라벨을 확장하는 방법론을 제안합니다. 또한, 공간 및 시간적 확장 전략을 각각 구현하여, 다양한 시각적 맥락에서 보다 섬세하고 효과적인 적응을 달성하는 것으로 나타났습니다. 3장에서, 2장과 같이 실제 대상 데이터 라벨 없이 수행된 비지도 적응은 본질적으로 제한적이며 완전한 감독 모델의 성능과 일치하지 않는다는 것을 실험적으로 밝혔습니다. 비용 효과적이지만, 이러한 적응 접근법으로 얻어진 모델의 성능 격차는 실제로 배포할 수 없습니다. 이 도전에 대응하기 위해, 대상 데이터 내 라벨링을 위한 영역을 모델의 대상 데이터 분석에 의해 전략적으로 결정하는 새로운 인간 중심의 활동적 도메인 적응 방법(Active DA)을 도입합니다. 우리의 발견에 따르면, 각 이미지에서 픽셀의 $2%$만 라벨링하면 감독 모델의 성능에 근접할 수 있습니다. 또한, 이 $2%$ 임계값 내에서 대표적인 지점을 선택하는 기술을 제안하며, 이러한 선택적 접근법은 심각한 성능 저하 없이 감독 모델과 비슷한 결과를 얻을 수 있음을 보여줍니다. 4장에서는, 인간 수준의 적응성을 기계 학습 모델에서 추구하는 핵심 요소인 온라인 적응에 대해 탐구합니다. 온라인 적응은 실시간으로 대상 테스트 데이터를 활용하는 모델의 양방향 추론 및 학습 능력을 특징으로 합니다(Test-time DA). 이 접근법은 현재 배치나 심지어 단일 샘플만을 관찰하여 적응하려는 모델이 각 데이터 샘플을 보다 면밀하게 분석해야 함을 필요로 합니다. 개별 샘플 기준으로 모델의 자기 감독을 강화하기 위해, 우리는 두 가지 혁신적인 방법을 제안합니다. 첫 번째 방법은 다중 모달 센서 데이터의 통합 및 집계를 통해 개선된 의사 라벨 생성에 초점을 맞춥니다. 우리의 발견은 모달 간의 양방향 상호 작용이 의사 라벨의 품질을 크게 향상시킴으로써 테스트 시간 동안 모델의 적응성을 강화한다는 것을 드러냅니다. 다중 모달 데이터가 부족하고 따라서 정확한 의사 라벨이 부족한 시나리오에서는, 두 번째 방법을 도입합니다. 이 접근법은 '마스킹 및 재구성'이라고 하는 간단하지만 효과적인 자기 감독 기술을 포함합니다. 이 방법은 데이터의 내재된 구조와 상관관계를 능숙하게 번역하여, 테스트 시간 적응 중 모델의 성능을 크게 향상시킵니다. 이러한 방법론은 온라인 적응의 전선을 발전시키는 데 우리의 약속을 강조하며, 우리 모델이 다양한 작업에서 견고하고 효과적으로 유지되도록 보장합니다. 5장에서는, 통합 도메인 적응(UnDA)을 위한 포괄적인 프레임워크를 탐구하여, 기계 학습에서 인간 수준의 적응성을 달성하는 정점에 도달합니다. 이 장은 2장에서 처음 소개된 UDA 방법론을 테스트 시간 훈련에 확장 및 적용하고, 그 반대로 제안된 TTA 전략을 오프라인 훈련 단계에 통합하기 위한 일련의 보완 실험으로 시작합니다. 우리의 경험적 평가는 우리의 UDA 및 TTA 접근 방식 사이의 주목할 만한 호환성과 시너지를 드러냅니다. 또한, 이 장은 활동적 적응 전략을 통합하여 우리의 통합 도메인 적응 프레임워크의 효과를 증가시키는 것을 탐구합니다. 온라인 시나리오에서 인간 라벨링의 불가능성을 가정하면서, 이 통합 프레임워크 내에 인간 중심의 활동적 적응 시스템을 통합하는 것과 관련된 중요한 도전이 나타납니다.

서지기타정보

서지기타정보
청구기호 {DPD 24002
형태사항 xi, 100 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신인규
지도교수의 영문표기 : Kuk-Jin Yoon
지도교수의 한글표기 : 윤국진
공동지도교수의 영문표기 : In-So Kweon
공동지도교수의 한글표기 : 권인소
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 미래자동차학제전공,
서지주기 References : p. 90-99
주제 Unsupervised Domain Adaptation
Active Domain Adaptation
Test-time Adaptation
Unified Domain Adaptation
Human-level Adaptation
비지도 도메인적응
엑티브 도메인적응
테스트타임 도메인 적응
통합 도메인 적응
인간 수준의 도메인 적응
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서