The demand for machine learning models in various industries is growing rapidly due to recent advancements in artificial intelligence research. However, the effectiveness of deep neural network models heavily depends on the quality of the training data they receive. If the target labels are strongly correlated to target features, it is resulted in the model with prejudice. These datasets are known as biased datasets, and this issue is referred to as the dataset bias problem. Therefore, having a well-structured training dataset is crucial for training robust deep neural networks. However, acquiring such datasets in real-world scenarios is challenging and expensive because it often requires significant human effort, such as additional labeling. To address this issue and minimize human involvement, researchers have been studying training methods that can prevent bias in models trained on biased datasets. This thesis involves an extensive investigation that examines biased training datasets and even explores scenarios involving different types of noise. Firstly, we propose an algorithm called PGD, which is a per-sample gradient-based resampling method. It constructs balanced-mini-batches to mitigate bias in biased datasets with accurate labels. Secondly, we describe DENEB, a training method based on entropy that aims to reduce dataset bias with noisy labels. DENEB leverages the entropy of the softmax function to alleviate the impact of noisy labels. Lastly, we introduce ORBIS, a method that boosts the debiasing of existing debiasing techniques by utilizing unlabeled or potentially corrupted labeled open datasets.
최근 인공지능 연구들의 발전과 함께, 다양한 산업 분야에서의 기계학습 모델의 수요는 기하급수적으로 증가 하고 있다. 하지만, 심층 신경망 모델의 성능은 학습 데이터에 강력하게 의존하고 있다. 즉, 강건한 심층 신경망 학습을 위해서는 잘 구성되어있는 학습 데이터는 필수불가결 하다. 하지만, 실생활에서 잘 구성되어있는 학습 데이터를 얻는것은 매우 어려운 작업이며, 특히 이를 얻기 위해서는 추가적인 레이블링 등의 고비용의 인력이 요구된다. 이를 완화하기 위해, 주어진 편향된 학습 데이터를 활용해서 학습 모델이 편향성을 갖지 않도록 하는 학습 방법들이 연구 되어 왔다. 본 학위논문에서는, 허위 상관관계가 있는 학습 데이터를 활용하여 다음의 연구 결과를 상세 연구로 다룬다. 첫번째로, 편향된 데이터세트의 학습 레이블이 완벽한 경우, 이를 완화하기 위한 기울기 (gradient) 기반의 균형 잡힌 배치 구성 방법인 샘플별 기울기 기반의 재샘플링 방법인 PGD에 대해 다룬다. 그 다음, 편향된 학습 데이터트의 학습 레이블이 오기재 되어 편향 완화를 방해하는 경우, 레이블을 사용하지 않는 엔트로피 기반의 편향 완화 방법인 DENEB: 엔트로피 기반의 편향 완화 후 레이블 오류 완화법에 대해 설명한다. 마지막으로 레이블이 붙어있지 않거나, 잘못된 레이블이 붙어 있을 수 있는 (오염 가능도가 높은) 공개 데이터 (Open dataset)를 활용하여 학습 편향을 완화하는 방법인 ORBIS를 통해 기존의 학습 방법들의 편향 완화 성능을 향상시키는 방법을 제안한다