Positive-unlabeled (PU) learning is the learning of a binary classifier, but it is different from an ordinary setting because we only have some positively labeled data instances, and others are unlabeled. Learning in the positive-unlabeled (PU) setting is prevalent in real world applications. Many previous works depend upon the ‘Selected Completely At Random’ (SCAR) assumption to utilize unlabeled data, but the SCAR assumption is not often applicable to the real world due to selection bias in label observations. This paper is the first generative PU learning model without the SCAR assumption. Specifically, we derive the PU risk function without the SCAR assumption, and we generate a set of virtual PU examples to train the classifier. Although our PU risk function is more generalizable, the function requires PU instances that do not exist in the observations. Therefore, we introduce the VAE-PU, which is a variant of variational autoencoders to separate two latent variables that generate either features or observation indicators. The separated latent information enables the model to generate virtual PU instances. We test the VAE-PU on benchmark datasets with and without the SCAR assumption. The results indicate that the VAE-PU is superior when selection bias exists, and the VAE-PU is also competent under the SCAR assumption. The results also emphasize that the VAE-PU is effective when there are few positive-labeled instances due to modeling on selection bias.
양성-미분류 문제 학습은 이진 분류에서 양의 데이터 일부만 라벨을 가지고 있는 문제에서의 학습으로 추천 시스템이나 의료 진단 등 현실 상황에서 자주 발생한다. 기존의 양성-미분류 문제 학습 연구에서는 완전 무작위 선택 가정을 사용하지만, 라벨 데이터에 대한 선택 편향 문제로 인하여 현실 상황에는 잘 맞지 않는 가정이다. 본 연구에서는 완전 무작위 선택 가정을 사용하지 않는 양성-미분류 문제 학습 생성 모델을 제시한다. 먼저 분류자 학습을 위하여 완전 무작위 선택 가정이 없는 상황에서 양성-미분류 위험 함수를 전개한다. 제시한 양성-미분류 위험 함수를 활용하기 위해서는 현재 가지고 있지 않은 라벨이 없는 양의 데이터가 필요하다. 이를 해결하기 위하여 변분 오토인코더 기반의 생성 모델인 양성-미분류 변분 오토인코더를 모델링한다. 양성-미분류 변분 오토인코더는 라벨에 대한 정보와 라벨의 관측에 대한 정보를 가지는 잠재 변수를 구분하여 라벨이 없는 양의 데이터를 생성한다. 양성-미분류 변분 오토인코더는 선택 편향이 존재하는 상황에서 다른 모델에 비하여 뛰어난 성능을 보였으며, 선택 편향이 없는 상황에서도 충분한 성능을 보였다. 또한, 라벨이 있는 양의 데이터가 매우 적은 상황에서도 활용할 수 있음을 보였다.