서지주요정보
Towards responsible AI: data-centric solutions for fairness = 책임 있는 인공지능을 위한 데이터 중심 공정성 솔루션
서명 / 저자 Towards responsible AI: data-centric solutions for fairness = 책임 있는 인공지능을 위한 데이터 중심 공정성 솔루션 / Ki Hyun Tae.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042652

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24040

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As machine learning (ML) is becoming widespread and used in sensitive applications like hiring and medical systems, it needs to be fair in the sense that it does not put certain people at a disadvantage unnecessarily. The root cause of this unfairness lies in the biased data used to train ML models. While most of the existing work has focused on improving the training algorithm (i.e., model-centric AI) to make the model robust against biased data, we believe that fixing the data itself (i.e., data-centric AI) before model training is a more fundamental solution. Hence, the goal of this thesis is to support fairness across all data preparation steps in end-to-end machine learning, which include data acquisition, data labeling, and data cleaning. In this thesis, we first cover the problem of fair data acquisition where we investigate the best data acquisition strategy for accurate and fair ML models. We propose a selective data acquisition framework Slice Tuner, which determines how much data to acquire for each slice using reliable learning curve estimation. Next, we address the problem of fair data labeling where the labeling budget is limited, and we select the most informative samples for labeling to improve accuracy and fairness. We propose a fair active learning framework Falcon, which employs multi-armed bandit algorithms to learn the optimal policy for selecting samples that improve model accuracy and fairness the most. Finally, we study the problem of fair data cleaning where we validate and clean pre-existing biases in the data before model training. We propose a label flipping framework iFlipper, which minimally flips biased labels in the training data to improve individual fairness. iFlipper efficiently performs label flipping to correct labels in the data that are biased with theoretical guarantees. In addition, we propose MLClean, a unified data cleaning framework that improves fairness and robustness together.

인공지능이 널리 보급되고 고용 및 의료 시스템에도 적용됨에 따라, 특정 인원을 차별하지 않아야 한다는 인공지능 공정성의 개념이 중요해지고 있다. 이러한 불공정성의 원인은 모델 학습에 사용된 편향된 데이터에 있다. 기존 연구들은 편향된 데이터로부터 모델을 보호하기 위한 훈련 알고리즘에 초점을 맞추고 있지만, 데이터 자체를 수정하는 것이 더 근본적인 해결책이 될 수 있다. 본 논문에서는 데이터 수집, 라벨링, 클리닝을 포함하여 인공지능 학습에 필요한 데이터 준비 전 단계에서 공정성을 다루고자 한다. 첫 번째로, 정확하고 공정한 모델을 위한 최적의 데이터 수집 문제를 다룬다. 선택적 데이터 수집 기법인 Slice Tuner는 정확하게 추정한 학습 곡선을 통해 그룹마다 데이터를 얼마나 수집할지 결정한다. 다음으로, 데이터 라벨링을 진행할 때 정확도와 공정성 향상에 가장 효과적인 데이터를 선별하는 문제를 다룬다. 공정한 액티브 러닝 기법인 Falcon은 멀티암드 밴딧 기법을 활용하여 이러한 데이터를 효과적으로 선택할 수 있는 정책을 자동으로 학습한다. 마지막으로, 데이터의 편향을 미리 검증하고 이를 수정하는 문제를 다룬다. 개별 공정성을 위한 라벨 플리핑 기법인 iFlipper는 편향된 라벨을 최소한으로 수정하는 작업을 효율적으로 수행하며, 기법의 이론적 보장성을 제시한다. 더불어, 통합 데이터 클리닝 기법인 MLClean은 공정성과 강건성을 함께 개선한다.

서지기타정보

서지기타정보
청구기호 {DEE 24040
형태사항 vii, 120 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 태기현
지도교수의 영문표기 : Euijong Whang
지도교수의 한글표기 : 황의종
수록잡지명 : "Slice Tuner: A Selective Data Acquisition Framework for Accurate and Fair Machine Learning Models". SIGMOD '21: Proceedings of the 2021 International Conference on Management of Data, 1771–1783(2021)
수록잡지명 : "iFlipper: Label Flipping for Individual Fairness". Proceedings of the ACM on Management of Data, v.1.no.1, 1–26(2023)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 109-118
주제 Data-centric AI
Responsible AI
AI fairness
Data pre-processing
데이터 중심 인공지능
책임 있는 인공지능
인공지능 공정성
데이터 전처리
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서