Supervised contrastive learning on image mixtures for long-tailed recognition = 혼합 영상의 지도 대조 학습을 활용한 긴 꼬리 인식
서명 / 저자 Supervised contrastive learning on image mixtures for long-tailed recognition = 혼합 영상의 지도 대조 학습을 활용한 긴 꼬리 인식 / Minki Jeong.
발행사항 [대전 : 한국과학기술원, 2023].
학술문화관(도서관)2층 학위논문

DEE 23069

As deep neural networks prove their utilities in various computer vision problems, attempts to utilize them in the real-world are also growing. Since the data distribution in the real-world is not ideal, the training data distribution issue rises to use networks in the real-world. This dissertation discusses long-tailed recognition, which considers the training data distribution of the real-world, and few-shot open-set recognition, which is related to long-tailed recognition. Long-tailed recognition refers to learning methods that consider the class imbalance of training data. Since class imbalances can occur for various reasons, such as the data collecting cost, long-tailed recognition helps to apply deep neural networks in various areas in the real-world. The proposed long-tailed recognition method is a MixUp-based supervised contrastive learning method that solves the bias problem of supervised contrastive learning on long-tailed data. Furthermore, an image augmentation method for blended images for contrastive learning is proposed. Few-shot open-set recognition is a generalized few-shot recognition problem, which is similar to long-tailed recognition in terms of the training data problem. Its goal is to distinguish unknown class samples from known class samples while correctly classifying the known class samples with a few training samples. In the real-world, collecting high-quality training data for all areas is challenging in terms of cost. Moreover, identifying unknown category samples is required to expand the use of deep neural network-based models in the real-world where unexpected outliers exist. Few-shot open-set recognition allows addressing both problems simultaneously. The proposed method utilizes the transformation consistency of feature transformations. The transformed results are similar to a trained transformation function if the inputs are similar. Thus, the transformed results are compared to detect unknown class samples. Since the proposed method only depends on the transformation function, it does not require pseudo-unknown class samples during training, preventing performance loss.

컴퓨터 비전 분야에서 심층 신경망이 그 효용을 입증함에 따라 이를 현실 세계에서 활용하려는 시도 또한 커지고 있다. 하지만 현실 세계의 데이터 분포가 이상적이지 않기에 이를 고려하는 연구가 필요하다. 본 학위 논문에서는 현실 세계의 데이터 분포 특성을 고려하는 연구 주제인 긴 꼬리 인식과 그와 연관되는 극소수 개방 집합 인식 연구를 진행하였다. 긴 꼬리 인식은 클래스 간 학습 데이터 불균형을 고려한 인식 기법을 뜻한다. 학습 데이터에 클래스별 샘플 수가 서로 다른 경우, 일반적인 학습 기법을 사용하여 학습시키면 수가 적은 클래스를 잘 구분할 수 없는 분류기가 학습된다. 데이터 수집 비용 등 다양한 이유로 클래스 불균형이 일어날 수 있기에, 긴 꼬리 인식은 실제 세계의 다양한 영역에 심층 신경망을 적용하는 데 도움이 된다. 본 학위논문에서 제시하는 긴 꼬리 인식 기법은 지도 대조 학습과 영상 혼합 기술을 활용한다. 지도 대조 학습법은 여러 인공지능 분야에서 좋은 성능을 보이고 있지만, 긴 꼬리 인식 환경에서 편향 문제를 일으키는 단점이 있다. 영상 혼합을 활용해 긴 꼬리 인식 환경에서 지도 대조 학습 접근법이 가지는 편향 문제를 해결하였다. 추가로, 혼합된 영상을 지도 대조 학습에 활용하기 위한 새로운 영상 증대 기법을 개발하였다. 극소수 개방 집합 인식이란 일반화된 극소수 인식 문제로서, 극소수 인식과 개방 집합 인식의 복합 문제이다. 이는 학습 데이터의 문제를 다루는 점에서 긴 꼬리 인식과 연관성이 있다. 현실 세계에서 인식 모델이 필요한 모든 분야에 대해 충분한 학습 데이터를 확보하는 것은 비용 측면에서 비효율적이며 까다롭다. 그리고 미상 범주 샘플을 식별하는 능력은 여러 변수가 존재하는 현실에서 심층 신경망 기반 모델의 사용처를 확대하는 데 필요하다. 극소수 개방 집합 인식은 두 문제를 동시에 해결할 수 있다. 본 학위 논문에서 제시하는 극소수 개방 집합 기법은 극소수 학습에서 자주 사용되는 특징 변환기의 변환 일관성을 활용한다. 클래스별 프로토타입과 현재 입력으로부터 얻은 특징 벡터를 변환한 출력을 비교하여 출력 사이의 차이가 적으면 프로토타입과 특징 벡터가 서로 유사한 것으로 목표 범주 샘플로 식별하며, 반대로 변환된 특징 사이에 큰 차이가 있으면 현재 입력을 미상 범주로 식별한다. 이 기법은 미상 범주 샘플 검출을 위해 특징 변환기만을 학습하며, 특징 변환기 학습에는 유사 미상 범주 샘플이 필요하지 않아 유사 미상 범주 샘플로 인한 성능 저하가 없다.


청구기호 {DEE 23069
형태사항 xi, 77 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정민기
지도교수의 영문표기 : Changick Kim
지도교수의 한글표기 : 김창익
수록잡지명 : "Few-shot Open-set Recognition by Transformation Consistency". 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.12566-12575(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 64-73
주제 Computer vision
Machine learning
Long-tailed recognition
Supervised contrastive learning
Few-shot open-set recognition
컴퓨터 비전
기계 학습
긴 꼬리 인식
지도 대조 학습
극소수 개방 집합 인식





