In this paper, we try to solve the performance degradation that happens when the dataset used for training a classifier includes samples with incorrect labels. Several studies have been proposed to solve the label probability distribution distortion due to noisy labels. However, this inference has limits because of lack of information on knowing the authenticity of the label. In result, previous studies of finding the true class distribution, which are either 1) determining the validity of a label or 2) inferring the probability of having a wrong label conditional on the true class by concentrating on the information from only results from classifiers trained with noisy datasets may be hard to converge to the real true distribution. To solve this problem, we propose a method to generate the true class by considering it as latent variables. Specifically, it reflects the available information from the inputs by using a Conditional Variational Autoencoder to generate the true class. However, it may not be suitable to give normal distribution as prior distribution of latent class, since our latent variable will have categorical feature. In this sense, we use the Dirichlet distribution as a prior distribution of our latent variable. Our methodology shows improved performance on several types of mislabeled data.
이 논문에서는 틀린 라벨을 가진 샘플을 포함한 데이터를 분류기 학습에 사용하였을 때 발생하는 성능 저하를 해결하고자 한다. 틀린 라벨에 의한 라벨의 확률 분포 왜곡을 해결하기 위해 많은 연구들이 제시되었으나, 지금까지는 1) 라벨의 진위여부를 판단하거나 2) 진짜 라벨을 알고 있을 때 틀린 라벨을 가질 확률을 추론함에 있어 틀린 라벨을 가진 샘플을 포함한 데이터로 학습한 분류기에서 얻을 수 있는 정보에만 집중하였고, 라벨의 진위여부를 모르는 상태에서 해당 추론은 한계를 가진다. 위 문제를 해결하기 위해 본 연구에서는 진짜 라벨을 잠재 변수로 간주하여 생성하는 방법을 제시한다. 구체적으로 진짜 라벨 생성에 조건부 변분오토인코더를 이용하여 샘플에서 얻을 수 있는 정보를 반영한다. 그러나, 일반적인 정규 분포를 사전분포로 가지는 변분 오토인코더의 경우 진짜 라벨에 대한 정보를 담고 있을 잠재 변수를 모델링하기에 적합하지 않은데, 이는 잠재변수가 범주형 특성을 가지고 있기 때문이다. 따라서 조건부 변분 오토인코더의 사전분포로 디리클레 분포를 사용한다. 위 방법론은 여러 종류의 틀린 라벨을 가진 데이터에서 개선된 성능을 보여주었다.