서지주요정보
Why not to use zero imputation? correcting sparsity bias in training neural networks = 제로 임퓨테이션의 희소성 편향 보정을 통한 인공 신경망의 누락 데이터 처리
서명 / 저자 Why not to use zero imputation? correcting sparsity bias in training neural networks = 제로 임퓨테이션의 희소성 편향 보정을 통한 인공 신경망의 누락 데이터 처리 / Joonyoung Yi.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036004

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 20026

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Handling missing data is one of the most fundamental problems in machine learning. Among manyapproaches, the simplest and most intuitive way is zero imputation, which treats the value of a missingentry simply as zero. However, many studies have experimentally confirmed that zero imputation resultsin suboptimal performances in training neural networks. Yet, none of the existing work has explainedwhat brings such performance degradations. In this paper, we introduce thevariable sparsity problem(VSP), which describes a phenomenon where the output of a predictive model largely varies with respectto the rate of missingness in the given input, and show that it adversarially affects the model performance.We first theoretically analyze this phenomenon and propose a simple yet effective technique to handlemissingness, which we refer to asSparsity Normalization (SN), that directly targets and resolves the VSP.We further experimentally validate SN on diverse benchmark datasets, to show that debiasing the effectof input-level sparsity improves the performance and stabilizes the training of neural networks.

누락 데이터 처리는 기계 학습에서 가장 근본적인 문제 중 하나다. 많은 접근 방식 중에서 가장 단순하고 직관적인 방법은 누락된 항목의 값을 단순히 영(0)으로 처리하는 제로 임퓨테이션이다. 한편, 많은 연구에서 제로 임퓨테이션이 인공 신경망 훈련에서 최선의 성능을 발휘하지 못한다는 것이 실험적으로 확인되었다. 그러나, 기존 어떤 연구도 제로 임퓨테이션이 성능 저하를 초래하는 이유를 제대로 설명하지 못했다. 본 논문에서는 입력 데이터의 누락 비율에 따라 예측 모델의 출력이 크게 변하는 현상과 이 현상이 모델 성능에 악영향을 미친다는 것을 보여주는 가변 희소 문제를 소개한다. 우리는 먼저 이론적으로 가변 희소 문제를 분석하고, 가변 희소 문제를 직접적으로 해결하는 희소성 표준화를 제안한다. 우리는 입력 데이터 내 희소성의 영향을 완화시키는 것이 결국 성능을 향상시키고 신경망의 훈련을 안정화시키는 것을 보여주기 위해 다양한 벤치 마크 데이터 세트에서 희소성 표준화를 실험적으로 검증한다.

서지기타정보

서지기타정보
청구기호 {MCS 20026
형태사항 iv, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이준영
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
수록잡지명 : "International Conference on Learning Representations (ICLR)". (2020)
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 28-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서