When a small amount of labeled data and a large amount of unlabeled data exist, the research on semi-supervised learning that trains a network by efficiently utilizing the unlabeled data is actively conducting. Existing studies about semi-supervised learning only deal with situations in which the class distribution of training dataset is balanced. If class distribution of training dataset is imbalanced, those method makes the network over-fit to a class with a lot of data (major class), so the network produces wrong pseudo-label with high probability for a class with less data (minor class). In this thesis, we propose a training framework that prevents the over-fitting problem when the class distribution is imbalanced by making reliable pseudo-label of unlabeled data. We separately design the auxiliary labeling network to focus only on making pseudo-label. In order to utilize the labeled data and unlabeled data together, the labeling network has an auto-encoder-based structure. The proposed method can be applied without changing the main classification network because it increases the labeled data by producing high-reliability pseudo-labeled data through a auxiliary labeling network. In addition, a more accurate pseudo-label is produced by proposing the distance loss function of the latent feature considering the class distribution. Part of the prepared pseudo-labeled data is progressively added to the training dataset to mitigate the imbalance of class distribution.
소량의 라벨 데이터와 대량의 비라벨 데이터가 존재하는 경우, 비라벨 데이터를 효율적으로 활용하여 네트워크를 학습하는 준지도학습에 대한 연구가 활발히 진행되고 있다. 기존 준지도학습 연구는 학습 데이터셋의 클래스별 샘플 수의 분포가 균등한 상황에 대해서만 문제를 해결한다. 불균등 분포 학습 데이터셋에서 이러한 방법은 네트워크를 데이터가 많은 클래스에 과적합 되게 학습되므로 가라벨에 오류가 발생할 확률이 높다. 본 연구에서는 클래스 멤버쉽에 대한 비라벨 데이터가 주어진 상황에서 정확도가 높은 가라벨을 할당하여 클래스 간 학습 데이터 샘플의 불균등 문제를 해결하여 네트워크의 과적합 문제를 방지하는 학습 방법을 제안한다. 라벨 데이터와 비라벨 데이터를 동시에 네트워크 훈련에 활용하기 위해, 가변 오토인코더 기반 라벨링 네트워크를 설계하여 라벨이 없는 데이터의 가라벨 할당을 수행한다. 이 방법은 라벨링 네트워크를 통해 고신뢰성의 가라벨 데이터를 생성하여 학습 데이터를 증대시키기 때문에 분류 네트워크의 수정 없이 학습에 사용할 수 있다. 본 연구에서는 각 클래스의 데이터 샘플 수를 고려한 잠재 변수의 거리 손실함수를 제안하여 라벨링 네트워크가 더욱 정확한 가라벨을 생성하도록 학습하였다. 또한, 가라벨 데이터의 일부를 점진적으로 학습 데이터셋에 추가하여 불균등을 완화하는 방법을 제안한다.