서지주요정보
Domain adaptation and semi-supervised learning approaches to the data scarcity problem in computer vision = 컴퓨터 비전에서의 데이터 부족 문제를 위한 도메인 적응 및 준지도학습 방법
서명 / 저자 Domain adaptation and semi-supervised learning approaches to the data scarcity problem in computer vision = 컴퓨터 비전에서의 데이터 부족 문제를 위한 도메인 적응 및 준지도학습 방법 / Taekyung Kim.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038486

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 22012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Since deep learning-based supervised learning methods have been in the spotlight, the time and monetary costs of the ground-truth generation process and the data scarcity problem in computer vision have been a problem due to the excessive dependence of supervised learning methods on the annotated data. Due to the degenerative performance issue caused by domain discrepancy between training and test environments, the data scarcity problem further hinders the generalization of models to a new environment. Generalization approaches that tackle such data scarcity problem in computer vision can be classified into three types: i) Dependency reduction approaches on ground-truth, ii) Transfer learning approaches, and iii) learning approaches with noisy data. In this dissertation, we focus on the semi-supervised learning approaches of the ground-truth dependence reduction methods and the domain adaptation approaches of the transfer learning approaches. First, we explored the transfer learning from the bottommost setting through unsupervised domain adaptation. We propose a novel unsupervised domain adaptation approach for object detection. The conventional unsupervised domain adaptation methods can be categorized into feature-level domain adaptation and pixel-level domain adaptation. However, feature-level domain adaptation has the source-biased discriminability problem on the object detection layers, and pixel-level domain adaptation has the imperfect translation problem that does not completely transform source samples from the source domain to the target domain. To solve the source-biased discriminability, we propose Domain Diversification that intentionally causes several distinctive domain shifts from the source domain to enrich the distribution of the labeled data, thereby unbiasing the prediction layers. Moreover, we propose Multi-domain-invariant Representation Learning (MRL) to reduce the domain discrepancies among source domain, target domain, and the diversified domains. Second, we extend our research area to semi-supervised domain adaptation since the unsupervised cross-domain adaptation setting is far unrealistic for real-world adaptation. The novel setting of the semi-supervised domain adaptation (SSDA) problem shares the challenges with the domain adaptation problem and the semi-supervised learning problem. However, a recent study shows that conventional domain adaptation and semi-supervised learning methods often result in less effective or negative transfer in the SSDA problem. In order to reasonably interpret this observation and address the SSDA problem, we raise the intra-domain discrepancy assumption within the target domain. Then, we present attraction, perturbation, and exploration schemes to solve the semi-supervised domain adaptation problem in the perspective of the intra-domain discrepancy. Finally, we focus on generalizing a 3D vision task by reducing its dependency on ground-truth through semi-supervised learning. We propose a semi-supervised learning method and a neural network architecture that perform comparable to the supervised MVS methods even though we only used 30 to 40 3D points among dense 3D ground-truth millions of 3D points. To achieve the goal, we divide the reliable and erroneous regions and individually conquer them. We maximize the discriminability of the feature in a self-supervised approach on the reliable regions and propagating the reliable accurate depth predictions to the fundamentally erroneous regions. First, we propose a 3D point consistency loss to enhance the depth accuracy on the non-occluded region. It regresses the back-projected 3D points of the corresponding pixels to actually meet at the same 3D coordinate, so that they can eventually form a correct correspondence in the 3D world. Then, we design propagation approach that update the uncertain depth prediction based on the feature similarity between the nearby pixels.

딥러닝 기반의 지도 학습 방법이 각광받은 이래로 데이터에 대한 신경망의 의존성 때문에 데이터 부족과 레이블 제작에 드는 시간적 · 금전적 부담은 문제가 되어왔다. 학습 환경과 평가 환경 간의 도메인 차이로 인한 신경망의 성능 저하로 인해 데이터 부족 문제는 새로운 환경으로의 일반화를 더욱 방해하는 요소로 작용한다. 이와 같이 컴퓨터 비전 문제에서의 일반화를 방해하는 데이터 부족 문제를 극복하기 위한 접근 방법은 크게 세 종류로 분류할 수 있다: i) 레이블에 대한 의존도를 낮춤으로써 데이터 수집 부담을 줄이는 방식, ii) 도메인 간의 차이를 완화시키는 전이학습 방식. iii) 노이즈가 존재하는 데이터로 학습시키는 방식. 본 학위 논문에서는 레이블 의존도 완화 방식 중 준지도학습 방법과 전이학습 방식 중 도메인 적응 방법에 집중한다. 첫째로, 우리는 비지도 도메인 적응을 통해 가장 기본적인 환경에서부터 전이 학습을 탐구한다. 우리는 단일 근원 도메인이 주어진 상황에서 비지도 학습 방식을 통해 객체 검출 네트워크를 단일 목표 도메인으로 적응시키는 비지도 학습 기반 도메인 적응 방법에 대한 새로운 패러다임을 제시한다. 기존의 비지도 학습 기반 도메인 적응 방법은 크게 도메인 불변 특징 지도를 학습시키는 특징 지도 수준에서의 도메인 적응 방법과 영상 간 이미지 변환 네트워크를 활용한 픽셀 수준에서의 적응 방법으로 분류된다. 하지만 특징 지도 수준에서의 적응 방법은 객체 검출 레이어의 판별력이 근원 도메인에 편향되어있는 문제가 있으며, 픽셀 수준에서의 적응 방법은 근원 도메인에서 목표 도메인으로 완벽하게 변환되지 않는 문제가 존재한다. 우리는 이를 각각 근원 편향 판별력 문제와 불완전 영상 변환 문제라고 명명한다. 근원 편향 판별력 문제를 해결하기 위해서 불완전 영상 변환 현상을 통해 소스 도메인으로부터 의도적으로 서로 다른 불완벽 변환 도메인들을 생성 후 이를 활용하여 객체 검출 레이어를 비편향화하는 도메인 다양화 방법을 제안한다. 또한 근원 도메인, 목표 도메인 및 불완전하게 변환된 도메인들 간의 도메인 차이를 줄이기 위해 다중 도메인 불변 특징 지도 학습 방법을 제안한다. 둘째로, 비현실적인 비지도 도메인 적응 문제에서 보다 현실적인 문제로 연구를 확장하기 위해 준지도 도메인 적응 문제를 탐구한다.준지도 도메인 적응 문제는 도메인 적응 문제 및 준지도 학습 문제에서의 어려움을 모두 공유한다. 그러나 최근 연구에 따르면 기존의 도메인 적응 및 준지도 학습 방법들은 종종 준지도 도메인 적응 문제에서 효과가 미미하거나 부정적인 전이를 초래한다. 이러한 관찰 결과를 합리적으로 해석하고 준지도 도메인 적응 문제를 해결하기 위해 목표 도메인에서의 도메인 내 편차 가정을 제시한다. 도메인 내 편차의 관점에서 준지도 도메인 적응 문제를 해결하기 위한 견인, 섭동 및 탐색 방법을 제안한다. 세 번째로, 3차원 비전 문제를 일반화시키기 위한 첫 연구로 멀티 뷰 스테레오 매칭 문제에서 레이블에 대한 의존성을 낮추는 연구를 진행한다. 수백만 개의 3차원 점으로 이루어진 점구름 형태의 레이블 중 30~40개의 3차원 포인트만으로도 선행 논문 방법들이 원본 레이블에서 학습한 성능과 비슷한 추론 역량을 지니는 신경망 구조 및 학습 방법을 제안한다. 이를 달성하기 위해 우리는 희소한 레이블로 인해 전반적으로 저하된 성능을 자가 지도 방법을 통해 개선한다. 또한 이렇게 개선된 신뢰성있는 추론 결과를 물체 경계 및 폐색 영역과 같은 추론이 어려운 부분으로 확산시키는 접근 방법을 사용한다. 먼저, 우리는 3D 복원 성능을 향상시키기 위해 3차원 점 일관성 손실 함수라고 하는 자가 지도 손실 함수를 제안한다. 해당 손실 함수는 각 영상 내의 대응되는 픽셀들을 현실 좌표계로 역투영 시 현실 좌표계 내 동일한 3차원 점에서 만나도록 하여 다중 시점 간의 추론 결과가 일관성을 지니도록 학습한다. 또한 시각적 연관성에 기반하여 신뢰성 있는 영역에서 신뢰성이 낮은 영역으로 추론 결과를 확산시키는 방법을 사용한다.

서지기타정보

서지기타정보
청구기호 {DEE 22012
형태사항 xii, 93 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김태경
지도교수의 영문표기 : Changick Kim
지도교수의 한글표기 : 김창익
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 78-89
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서