서지주요정보
Robust learning under label noise with deep neural networks = 심층 신경망을 활용한 라벨 노이즈에 강건한 학습법 연구
서명 / 저자 Robust learning under label noise with deep neural networks = 심층 신경망을 활용한 라벨 노이즈에 강건한 학습법 연구 / Hwanjun Song.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037436

소장위치/청구기호

학술문화관(문화관) 보존서고

DKSE 21001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep learning has achieved remarkable success in numerous domains with help from large amounts of big data. However, the quality of data labels is a concern because of the lack of high-quality labels in many real-world scenarios. In the presence of noisy labels, the generalization performance of deep neural networks drastically falls down owing to their high capacity to overfit any noise labels. This overfitting issue still remains even with various conventional regularization techniques, such as dropout and batch normalization. Therefore, learning from noisy labels (robust training) has recently become one of the most active research topics in the machine learning community. In the first part, we provide the problem statement for supervised learning with noisy labels, followed by a thorough survey on the advance in recent deep learning techniques for overcoming noisy labels; we surveyed recent studies by recursively tracking relevant bibliographies in papers published at premier research conferences. Throughout this survey, we note that the main research effort has been made to answer the two following questions: (1) how to minimize the negative influence of false-labeled samples by adjusting their loss values? and (2) how to identify true-labeled samples from noisy data?, both of which have been well-explored respectively by the two research directions, namely, loss adjustment and sample selection. In the second part, we mainly focus on understanding the pros and cons of the aforementioned research directions and, subsequently, propose a hybrid learning approach called SELFIE that takes advantage of both loss adjustment and sample selection. For the hybrid approach, a new concept of a refurbishable sample is introduced to classify the sample whose loss can be correctly adjusted with high precision. The loss of refurbishable samples is adjusted first and then combined with that of the samples chosen by a representative sample selection criterion called small-loss trick. To validate the superiority of SELFIE, we conducted extensive experimentation using both real-world or synthetic noisy datasets. The results empirically verify that SELFIE significantly outperforms state-of-the-art methods in test error by up to 10.5 percentage point. In the third part, we take a closer look at the small-loss trick adopted by SELFIE for sample selection. We argue that the trick misclassifies many false-labeled samples as clean samples in realistic noise. Hence, we present a new sample selection method called Prestopping, which derives a collection of true-labeled samples by using the early stopping mechanism. Prestopping obtains an initial safe set by stopping its learning process before the network begins to rapidly memorize false-labeled samples and, subsequently, resumes training to improve the quality and quantity of the set gradually. Compared with state-of-the-art methods including SELFIE, Prestopping further improves the test error by up to 18.1 percentage point on four real-world or synthetic noisy datasets. The main technical challenge in Prestopping is determining the best stop point for its phase transition (we call it a best transition point). In Prestopping, a clean validation set or a known true noise rate is used for supervision, but they are usually hard to acquire in practice. In the last part, we introduce a novel self-transitional learning approach called MORPH, which automatically switches its learning phase at the best transition point without any supervision. Extensive experiments using five benchmark datasets demonstrate that only MORPH succeeds to construct a collection of almost true-labeled samples in a wide range of noise types. We leave the incorporation of SELFIE with MORPH as future work.

빅 데이터의 출현으로 딥 러닝은 수많은 도메인에서 놀라운 성공을 달성하였다. 그러나 대규모 데이터에 대한 고품질 라벨 획득은 실제 시나리오에서 매우 어려우며 노이즈 라벨이있는 경우 심층 신경망의 성능은 그들에 과적합되어 일반화 성능이 크게 떨어진다. 이 과적합 문제는 드롭 아웃 및 배치 정규화과 같은 다양 한 기존 정규화 기술을 사용하더라도 여전히 문제가되므로 강건한 딥러닝을 달성하는 것은 최근 기계학습 커뮤니티에서 가장 활발한 연구 주제 중 하나이다. 본 논문의 첫 번째 파트에서는 노이즈 라벨을 사용하는 지도학습에 대한 문제를 정의하고 이를 극복 하기위한 최근 딥 러닝 기술의 발전에 대해 철저히 조사한다. 문헌조사는 최우수 국제 학술대회에서 발표 된 논문들을 바탕으로하였다. 대부분의 연구는 (1) 손실값 조정: 손실 값을 조정하여 잘못된 라벨이 붙은 샘플의 부정적 영향을 최소화하는 방법 그리고 (2) 샘플 선택: 라벨 노이즈가있는 데이터에서 실제 라벨이 붙은 샘플을 식별하는 방법에 대한 두 가지 연구 뱡향에 초점을 맞추었다. 본 논문의 두 번째 파트에서는 앞서 언급 한 두 연구 방향의 장단점을 조사하고 두 방식의 장점을 모두 활용할 수 있는 하이브리드 방법 SELFIE를 제안한다. 이 하이브리드 접근법의 경우, 매우 높은 정확도로 손실을 조정할 수 있는 재처리 가능 샘플의 개념이 도입되었다. 재처리 가능으로 간주되는 샘플들의 경우, 그들을 손실값은 조정된 후 소 손실 기법(대표적인 샘플 선택 방법론)에 의해 선택된 샘플들의 손실과 결합된다. SELFIE의 우수성을 확인하기 위해 실제 또는 합성 노이즈 데이터세트를 사용하여 광범위한 실험을 수행하였고, 그 결과는 SELFIE가 최신 방법론들 보다 10.5 퍼센트 포인트까지 낮은테스트 오류를 달성한다는 것을 경험적으로 입증하였다. 본 논문의 세 번째 파트에서는 샘플 선택을 위해 SELFIE 방법론에서 사용된 소 손실 기법을 자세히 살펴본다. 현실적인 라벨 노이즈하에서 이 기법은 많은잘못된 라벨이 붙은 샘플들을 깨끗한 샘플들로 잘못 분류하는 문제가 있었고 이를 극복하기 위해 조기 정지 기법을 기반으로 실제 라벨이 지정된 샘플을 선택하는 새로운 방법 Prestopping을 제안한다. Prestopping은 네트워크가거짓 라벨이 붙은 샘플을 과적합하기 전에 학습 프로세스를 중지하여 초기 안전 샘플집합을 얻는다. 그 후 얻어진 안전 샘플집합을 사용하여 훈련을 재개하고 동시에 안전집합의 양과 질을 점진적으로 개선한다. Prestopping은 4개의 실제 또는 합성 노이즈 데이터세트에서 테스트 오류를 최대 18.1 퍼센트 포인트까지 개선한다. Prestopping의 주요 기술적 과제는 학습 단계전환을 위한 최적의 중지 지점을 결정하는 것이다 (이를 최적 전환점이라고 부른다). Prestopping에서는 깨끗한 유효성 검사 세트 또는 실제 노이즈 비율을 최적 전환참을 찾기위한 감독으로 활용하지만 이는 실제로 획득하기가 어렵다. 본 논문의 마지막 파트에서는 이를 극복하기 위한 자가 전환 학습방법 MORPH를 제안한다. MORPH는 어떠한 감독없이 최적 전환점에서 학습 단계를 자동으로 전환한다. 5개의 벤치마크 데이터세트를 사용한 광범위한 실험은 여러 최신 방법들과 비교하여 오로지 MORPH만이 광범위한 노이즈 유형에서 실제 라벨이 지정된 샘플의 안전집합을 성공적으 로 구성함을 보여준다. MORPH를 SELFIE의 샘플 선택기법인 소손실 기법을 대체하여 보다 높은 성능을 달성 할 수 있으나 이는 향후 연구로 남겨둔다.

서지기타정보

서지기타정보
청구기호 {DKSE 21001
형태사항 v, 82 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송환준
지도교수의 영문표기 : Jae-Gil Lee
지도교수의 한글표기 : 이재길
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 지식서비스공학대학원,
서지주기 References : p. 74-82
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서