Handling missing data is one of the most fundamental problems in machine learning. Among manyapproaches, the simplest and most intuitive way is zero imputation, which treats the value of a missingentry simply as zero. However, many studies have experimentally confirmed that zero imputation resultsin suboptimal performances in training neural networks. Yet, none of the existing work has explainedwhat brings such performance degradations. In this paper, we introduce thevariable sparsity problem(VSP), which describes a phenomenon where the output of a predictive model largely varies with respectto the rate of missingness in the given input, and show that it adversarially affects the model performance.We first theoretically analyze this phenomenon and propose a simple yet effective technique to handlemissingness, which we refer to asSparsity Normalization (SN), that directly targets and resolves the VSP.We further experimentally validate SN on diverse benchmark datasets, to show that debiasing the effectof input-level sparsity improves the performance and stabilizes the training of neural networks.
누락 데이터 처리는 기계 학습에서 가장 근본적인 문제 중 하나다. 많은 접근 방식 중에서 가장 단순하고 직관적인 방법은 누락된 항목의 값을 단순히 영(0)으로 처리하는 제로 임퓨테이션이다. 한편, 많은 연구에서 제로 임퓨테이션이 인공 신경망 훈련에서 최선의 성능을 발휘하지 못한다는 것이 실험적으로 확인되었다. 그러나, 기존 어떤 연구도 제로 임퓨테이션이 성능 저하를 초래하는 이유를 제대로 설명하지 못했다. 본 논문에서는 입력 데이터의 누락 비율에 따라 예측 모델의 출력이 크게 변하는 현상과 이 현상이 모델 성능에 악영향을 미친다는 것을 보여주는 가변 희소 문제를 소개한다. 우리는 먼저 이론적으로 가변 희소 문제를 분석하고, 가변 희소 문제를 직접적으로 해결하는 희소성 표준화를 제안한다. 우리는 입력 데이터 내 희소성의 영향을 완화시키는 것이 결국 성능을 향상시키고 신경망의 훈련을 안정화시키는 것을 보여주기 위해 다양한 벤치 마크 데이터 세트에서 희소성 표준화를 실험적으로 검증한다.