서지주요정보
Development and application of efficient data pruning techniques in deep learning = 딥러닝을 위한 효과적인 데이터 프루닝 기법의 개발과 적용
서명 / 저자 Development and application of efficient data pruning techniques in deep learning = 딥러닝을 위한 효과적인 데이터 프루닝 기법의 개발과 적용 / Hoyong Choi.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042634

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent advancements in deep learning technology have brought innovations across various fields. However, as the technology has evolved towards using more data and larger models for performance improvement, there has been an exponential increase in the required computational costs. Consequently, the importance of efficient learning techniques, especially in data pruning, is becoming increasingly significant. Nevertheless, there are two key issues with existing data pruning methodologies: the necessity of training with the entire dataset for data selection and the variance in each methodology's performance depending on the data selection ratio. This research proposes methodologies to address these two critical issues in data selection. To tackle the first issue, we propose a `CG-score' (Complexity Gap score), which allows for the understanding of data characteristics without training, and demonstrate that the data selection performance based on this score is comparable to that of existing methodologies. By utilizing the Neural Tangent Kernel, which can mathematically approximate the learning process without directly training deep learning models, we quantified the characteristics of the data using only the training data. For the second issue, we proposed a `BWS' (best window selection) methodology, which involves sorting data by difficulty score and adjusting the selection range according to the selection ratio. We theoretically verify that changing the selection region according to different ratios enables optimal data selection and empirically confirm that this approach outperforms existing methodologies across all selection ratios.

최근 딥러닝 기술의 발전으로 다양한 분야에서 혁신이 일어나고 있지만, 성능 향상을 위한 더 많은 데이터와 더 큰 모델을 사용하는 쪽으로의 기술이 발전하면서 필요 연산량을 기하급수적으로 상승시켰다. 이에 따라 데이터나 모델을 효율적으로 사용하기 위한 연구인 효율적 학습기법, 그 중 데이터 선별의 중요성은 매우 커지고 있다. 하지만 기존 데이터 선별 방법론은 전체 데이터 학습이 필요하며, 방법론마다 선별 비율에 따른 성능차이가 크다는 문제점이 있다. 본 연구에서는 데이터 선별의 두 가지 핵심 문제를 해결하는 방법론을 제안하고자 한다. 먼저 첫번째 문제에 대해서는 학습 없이 데이터의 특성을 알 수 있는 점수인 복잡도-격차 점수를 제안하고, 점수를 기반으로 한 데이터 선별 성능이 기존 방법론의 성능과 비슷함을 확인하였다. 딥러닝 모델을 직접 학습하지 않고도 학습 과정을 수학적으로 근사할 수 있는 뉴럴 탄젠트 커널을 사용하여 학습 데이터만을 사용해 데이터의 특성을 정량화하였다. 두 번째 문제에 대해서는 데이터의 어려움 점수로 데이터를 정렬하고 선별 비율에 따라 선별 영역을 조정하는 방법인 최적 윈도우 선택 방법론을 제안하였다. 선별 비율이 달라질 때 선별 영역이 달려져야 최적의 데이터를 선별할 수 있음을 이론적으로 확인하였고, 모든 선별 비율에서 기존 방법론보다 높은 성능을 확인하였다.

서지기타정보

서지기타정보
청구기호 {DEE 24022
형태사항 iv, 68 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최호용
지도교수의 영문표기 : Hye Won Chung
지도교수의 한글표기 : 정혜원
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 62-66
주제 Deep learning
Efficient learning
Data pruning
Data subset selection
Neural tangent kernel
딥러닝
효율적 학습기법
데이터 프루닝
데이터 선별
뉴럴 탄젠트 커널
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서