Supervised classification with deep neural networks requires a large amount of labeled data. The massive cost of building such datasets has become a major bottleneck in utilizing deep learning algorithms. Recently, crowdsourcing has emerged to offer a scalable method to label massive datasets effectively. Albeit efficient, learning from such crowdsourced data is difficult since it suffers from noise in the collected labels due to varying annotator expertise. In this paper, we propose a method for learning a robust deep neural network classifier from noisy annotator data. Using a deep neural network trained with multiple annotator labels, we construct a generative classifier on top of the penultimate features of the pre-trained network. Then, we develop a robust version of the generative classifier to achieve better decision boundaries and generalization performance by jointly modeling the latent ground truth labels, deep neural network output features, and multiple annotator labels. The parameters of the robust generative classifier are estimated via Expectation-Maximization. We evaluate the proposed method on both synthetic and real multiple annotator data with complex annotator noise, where it outperforms other baselines.
심층신경망을 이용한 감독 분류는 많은 양의 레이블된 데이터를 필요로 한다. 이러한 데이터 셋을 구축하는 데 드는 큰 비용은 심층 학습 알고리즘의 활용에 큰 장애물이 되고 있다. 최근 부상한 크라우드소싱은 대규모 데이터를 효과적으로 레이블링 할 수 있는 확장성 있는 해답을 제공한다. 크라우드소싱은 효율적이지만, 이러한 방법으로 수집된 데이터로부터 학습하는 것은 각 주석자 간의 특성 차이로 인한 레이블에 잡음 때문에 쉽지 않다. 본 논문에서는 잡음이 있는 다중 주석자 데이터로부터 강건성 심층신경망 분류기를 학습하는 방법을 제시한다. 먼저 여러 개의 주석자 라벨을 사용하여 심층 신경 네트워크를 학습한 다음, 학습된 신경망이 만들어내는 은닉 표현 위에 생성형 분류기를 구축한다. 그런 다음 잠재 진실 레이블, 심층신경망의 은닉 표현 및 복수 주석자 레이블을 한꺼번에 모델링하여 더 나은 의사 결정 경계와 일반화 성능을 달성하는 강건성 생성형 분류기를 구축한다. 강건성 생성 분류기의 매개 변수는 기댓값 최적화를 통해 추정된다. 제시된 방법을 복잡한 주석자 잡음이 포함된 가상 및 실제 데이터에 대해 평가하고, 타 방법들의 성능을 능가함을 입증한다.