서지주요정보
Effective labeling on unlabeled data for imbalanced training dataset = 불균등 분포 학습 데이터셋에서 비라벨 데이터의 효과적인 라벨링에 대한 연구
서명 / 저자 Effective labeling on unlabeled data for imbalanced training dataset = 불균등 분포 학습 데이터셋에서 비라벨 데이터의 효과적인 라벨링에 대한 연구 / Jeonghyeok Do.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037170

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21034

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

When a small amount of labeled data and a large amount of unlabeled data exist, the research on semi-supervised learning that trains a network by efficiently utilizing the unlabeled data is actively conducting. Existing studies about semi-supervised learning only deal with situations in which the class distribution of training dataset is balanced. If class distribution of training dataset is imbalanced, those method makes the network over-fit to a class with a lot of data (major class), so the network produces wrong pseudo-label with high probability for a class with less data (minor class). In this thesis, we propose a training framework that prevents the over-fitting problem when the class distribution is imbalanced by making reliable pseudo-label of unlabeled data. We separately design the auxiliary labeling network to focus only on making pseudo-label. In order to utilize the labeled data and unlabeled data together, the labeling network has an auto-encoder-based structure. The proposed method can be applied without changing the main classification network because it increases the labeled data by producing high-reliability pseudo-labeled data through a auxiliary labeling network. In addition, a more accurate pseudo-label is produced by proposing the distance loss function of the latent feature considering the class distribution. Part of the prepared pseudo-labeled data is progressively added to the training dataset to mitigate the imbalance of class distribution.

소량의 라벨 데이터와 대량의 비라벨 데이터가 존재하는 경우, 비라벨 데이터를 효율적으로 활용하여 네트워크를 학습하는 준지도학습에 대한 연구가 활발히 진행되고 있다. 기존 준지도학습 연구는 학습 데이터셋의 클래스별 샘플 수의 분포가 균등한 상황에 대해서만 문제를 해결한다. 불균등 분포 학습 데이터셋에서 이러한 방법은 네트워크를 데이터가 많은 클래스에 과적합 되게 학습되므로 가라벨에 오류가 발생할 확률이 높다. 본 연구에서는 클래스 멤버쉽에 대한 비라벨 데이터가 주어진 상황에서 정확도가 높은 가라벨을 할당하여 클래스 간 학습 데이터 샘플의 불균등 문제를 해결하여 네트워크의 과적합 문제를 방지하는 학습 방법을 제안한다. 라벨 데이터와 비라벨 데이터를 동시에 네트워크 훈련에 활용하기 위해, 가변 오토인코더 기반 라벨링 네트워크를 설계하여 라벨이 없는 데이터의 가라벨 할당을 수행한다. 이 방법은 라벨링 네트워크를 통해 고신뢰성의 가라벨 데이터를 생성하여 학습 데이터를 증대시키기 때문에 분류 네트워크의 수정 없이 학습에 사용할 수 있다. 본 연구에서는 각 클래스의 데이터 샘플 수를 고려한 잠재 변수의 거리 손실함수를 제안하여 라벨링 네트워크가 더욱 정확한 가라벨을 생성하도록 학습하였다. 또한, 가라벨 데이터의 일부를 점진적으로 학습 데이터셋에 추가하여 불균등을 완화하는 방법을 제안한다.

서지기타정보

서지기타정보
청구기호 {MEE 21034
형태사항 v, 44 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 도정혁
지도교수의 영문표기 : Munchurl Kim
지도교수의 한글표기 : 김문철
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 39-42
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서