서지주요정보
Data valuation without training of a model = 학습 없이 데이터의 가치를 평가하는 알고리즘
서명 / 저자 Data valuation without training of a model = 학습 없이 데이터의 가치를 평가하는 알고리즘 / Nohyun Ki.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040732

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23025

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Many recent works on understanding deep learning try to quantify how much individual data instances influence the optimization and generalization of a model, either by analyzing the behavior of the model during training or by measuring the performance gap of the model when the instance is removed from the dataset. Such approaches reveal characteristics and importance of individual instances, which may provide useful information in diagnosing and improving deep learning. However, most of the existing works on data valuation require actual training of a model, which often demands high-computational cost. In this paper, we provide a training-free data valuation score, called complexity-gap score, which is a data centric score to quantify the influence of individual instances in generalization of two-layer overparameterized neural networks. The proposed score can quantify irregularity of the instances and measure how much each data instance contributes in the total movement of the network parameters during training. We theoretically analyze and empirically demonstrate the effectiveness of the complexitygap score in finding ‘irregular or mislabeled’ data instances, and also provide applications of the score in analyzing datasets and diagnosing training dynamics.

딥러닝에 관한 최근 연구들은 모델의 학습 동향이나 데이터가 제거되었을 때의 성능 차이를 분석하여, 각 데이터가 모델의 최적화 또는 일반화에 주는 영향을 분석한다. 이러한 접근들은 각 데이터의 특징과 중요 도를 밝혀내는데, 이는 딥러닝의 상향과 데이터의 진단에 유용한 정보를 제공한다. 그러나 데이터의 가치를 평가하는 기존의 방법들은 높은 계산 복잡도를 가진 훈련을 필요로 한다. 본 논문은 두 개의 층을 가진 과잉 파라미터 신경망에서 각 데이터의 이론적 영향을 측정하여, 훈련 없이 데이터의 가치를 평가하는 알고리즘인 복잡도-격차 알고리즘을 제시한다. 제시된 알고리즘은 각 데이터의 ‘불규칙성’을 수치화하며 그 데이터가 훈련 과정 동안 신경망의 변화에 얼마나 기여하는지를 나타낸다. 또한 우리는 이 알고리즘이 불규칙하거 나 잘못 레이블링된 데이터를 찾아내는데 효과적임을 이론적으로 분석하고, 그에 해당하는 실험 결과들을 제시한다.

서지기타정보

서지기타정보
청구기호 {MEE 23025
형태사항 v, 35 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 기노현
지도교수의 영문표기 : Hyewon Chung
지도교수의 한글표기 : 정혜원
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 31-33
주제 Data valuation
Generalization error bounds
Complexity-gap score
Data pruning
Training dynamics
데이터 가치평가
일반화 에러
복잡도 격차
데이터 제거 훈련법
학습 동향
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서