서지주요정보
Prioritizing informative features and examples for deep learning from noisy data = 노이즈 데이터에서 딥러닝을 위한 정보력 높은 특성과 샘플 선별
서명 / 저자 Prioritizing informative features and examples for deep learning from noisy data = 노이즈 데이터에서 딥러닝을 위한 정보력 높은 특성과 샘플 선별 / Dongmin Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042470

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DDS 24003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep neural networks (DNNs) have achieved remarkable success in various fields such as computer vision and natural language processing based on vast amounts of high-quality data. However, real-world data collections are invariably noisy and DNNs are reported to unintentionally memorize most of such noise, resulting in severe performance degradation. Although noise-robust learning approaches for DNNs have been actively developed, most works focus on improving the model training stage. However, such noise data disrupt DNNs not only during model training but throughout the entire model development process including sample selection, cleaning, and labeling. For example, the unlabeled noisy data obtained from out-of-distribution waste the labeling cost since a human labeler can not assign any label on them, while the non-filtered labeled noisy data can significantly degrade the model performance. This calls attention to developing a systematic method to avoid such noise and utilize highly informative features and examples throughout the model development process. In this dissertation, we propose a systemic framework that prioritizes informative features and examples to enhance each stage of the development process. Specifically, we prioritize informative features and examples and improve the performance of feature learning, data labeling, and data selection. We first propose an approach to extract only informative features that are inherent to solving a target task by using auxiliary out-of-distribution data. We deactivate the noise features in the target distribution by using that in the out-of-distribution data. Next, we introduce an approach that prioritizes informative examples from unlabeled noisy data in order to reduce the labeling cost of active learning. In order to solve the purity-information dilemma, where an attempt to select informative examples induces the selection of many noisy examples, we propose a meta-model that finds the best balance between purity and informativeness. Lastly, we suggest an approach that prioritizes informative examples from labeled noisy data to preserve the performance of data selection. For labeled image noise data, we propose a data selection method that considers the confidence of neighboring samples to maintain the performance of the state-of-the-art Re-labeling models. For labeled text noise data, we present an instruction selection method that takes diversity into account for ranking the quality of instructions with prompting, thereby enhancing the performance of aligned large language models. Overall, our unified framework induces the deep learning development process robust to noisy data, thereby effectively mitigating noisy features and examples in real-world applications.

심층신경망은 양질의 대용량 데이터를 기반으로 컴퓨터 비전, 자연어 처리 등의 다양한 분야에서 눈부신 성공을 거두었다. 반면, 실세계에서 수집된 데이터는 지저분한 노이즈를 수반할때가 많은데, 심층신경망의 높은 표현 성능은 이러한 노이즈를 불필요하게 암기하여 성능 하락의 주요한 원인이 되고 있다. 노이즈에 강건한 심층 신경망 학습방법들이 활발히 연구되어 왔지만, 대부분의 연구는 모델 학습과정을 개선하는데에 집중하고 있다. 반면, 노이즈 데이터는 모델 학습 과정 이외에도 데이터 선별과 정제, 레이블링을 포함한 심층신경망 모델 개발과정 전반에 걸쳐 악영향을 끼치고있다. 예를들어, 목표작업에 관계없는 분포외 데이터는 목표 작업에 관련된 레이블을 달 수 없으므로 레이블링을 하는 사람들의 시간적 비용을 낭비하기도 하며, 미처 정제되지 못한 잘못된 레이블을 가진 노이즈 데이터는 모델 학습 성능에 악영향을 주기도 한다. 이에따라 데이터내의 정보력 높은 특성과 샘플을 데이터 전처리 및 모델 학습 시스템 전반에 걸쳐 체계적으로 활용하는 방식에 대한 연구의 필요성이 대두대고 있다. 본 학위 논문에서는 심층신경망 모델 개발과정 전반에 걸쳐 정보력 높은 특성과 샘플을 효과적으로 선별하는 체계적인 방식을 제안한다. 구체적으로는, 정보력 높은 특성과 샘플 선별을 통해 심층 학습 개발 과정의 특성 학습, 능동 학습, 데이터 선별 단계의 성능을 개선한다. 첫번째로, 추가적인 분포외 데이터를 사용하여 목표 모델이 분포외 데이터에서는 등장하지 않는 정보력 높은 특성들만 선별할 수 있는 특성 정규화 방식을 제안한다. 분포외 데이터의 노이즈 특성을 이용하여 타겟 분포의 노이즈 특성을 불활성시킬 수 있다. 두번째로, 레이블이 되지않은 노이즈 데이터에 대해 정보력이 높은 샘플 선별 방식을 제안하여 능동 학습의 레이블링시 비용 낭비를 효과적으로 줄인다. 정보력 높은 샘플을 뽑을때 많은 노이즈 샘플이 선택되는 순도-정보도 딜레마를 풀기위하여 두 요인의 최선의 균형을 찾는 메타 모델을 제안한다. 마지막으로, 레이블이 되어있는 노이즈 데이터에 대해 정보력이 높은 샘플 선별 방식을 제안하여 선별된 데이터에서 학습된 모델 성능을 최대한 유지하며 학습 효율을 개선한다. 레이블된 이미지 노이즈 데이터에 대해서는 이웃 샘플 신뢰도를 고려한 데이터 선별 방식으로 최신 재레이블링 모델의 성능을 유지하며, 레이블된 텍스트 노이즈 데이터에 대해서는 다양성을 고려한 집단 프롬프팅 방식으로 언어지시 데이터를 선별하여 거대언어모델의 성능을 유지및 개선한다. 종합적으로, 제안된 방식은 심층 신경망 개발 과정을 노이즈 데이터에 강건하게 만드는 통합적인 시스템으로서 실세계에서 발생하는 노이즈 특성과 샘플들을 동시에 효과적으로 완화시킬 수 있다.

서지기타정보

서지기타정보
청구기호 {DDS 24003
형태사항 vii, 82 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박동민
지도교수의 영문표기 : Jae-Gil Lee
지도교수의 한글표기 : 이재길
수록잡지명 : "Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy". Annual Conference on Neural Information Processing Systems (NeurIPS),
수록잡지명 : "Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning". Annual Conference on Neural Information Processing Systems (NeurIPS),
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 데이터사이언스대학원,
서지주기 References : p. 69-80
주제 심층 학습
노이즈 데이터
분포외 데이터
특성 정규화
능동 학습
데이터 가지치기
핵심집합 선별
거대언어모델
Deep learning
Noisy data
Out-of-distribution data
Feature regularization
Active learning
Data pruning
Coreset selection
Large language models
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서