서지주요정보
Big data acquisition by crowdsourcing: fundamental limits and efficient algorithms = 크라우드소싱을 통한 빅데이터 수집에 관한 연구: 이론적 한계 성능 및 효율적 알고리즘 성능 분석
서명 / 저자 Big data acquisition by crowdsourcing: fundamental limits and efficient algorithms = 크라우드소싱을 통한 빅데이터 수집에 관한 연구: 이론적 한계 성능 및 효율적 알고리즘 성능 분석 / Doyeon Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040286

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Today, it is crucial to collect accurate and large labeled data for artificial intelligence or machine learning algorithms to train their models. Crowdsourcing system has emerged as an effective platform to acquire labeled data with relatively low cost by using non-expert workers, because one can access to this system anytime anywhere. Although the way of crowdsourced data collection has become ubiquitous, this way can have a problem because workers who provide answers through crowdsourcing may not give accurate answers for various reasons. Therefore, it is common to infer the correct label from many answers provided by workers. However, inferring correct labels from multiple noisy answers on data has been a challenging problem, since the quality of answers varies widely across tasks and workers. Many previous works have assumed a simple model where the order of workers in terms of their reliabilities is fixed across tasks, and focused on estimating the worker reliabilities to aggregate answers with different weights. We propose a highly general $d$-type worker-task specialization model in which the reliability of each worker can change depending on the type of a given task, where the number $d$ of types can scale in the number of tasks. In this model, we characterize the optimal sample complexity to correctly infer labels with any given accuracy, and propose an algorithm achieving the optimal result under some assumptions. We also conduct experiments both on synthetic and real datasets, and show that our algorithm outperforms the existing algorithms developed based on strict model assumptions. Finally, we conclude this dissertation by presenting a direction of future work that can be studied later.

인공지능 혹은 머신러닝 알고리즘의 성능을 고도화하기 위해서 정확한 라벨이 있는 많은 수의 학습데이터 수집이 매우 중요하다. 크라우드소싱을 통해 낮은 비용으로 라벨이 있는 학습 데이터를 수집할 수 있기 때문에 크라우드소싱으로 데이터 수집을 하는 것이 보편화되고 있다. 하지만, 크라우드소싱을 통해 답변을 제공하는 작업자는 다양한 이유로 정확한 답변을 주지 않을 수 있기 때문에 문제가 될 수 있다. 따라서, 그들이 제공한 복수의 답변을 통해 정답 라벨을 추론하는 것이 일반적이고, 이때 작업과 작업자에 따라 라벨 정확도가 다를 수 있기 때문에 이러한 추론 문제는 쉽게 해결하기 어려운 문제이다. 많은 이전 연구에서 작업에 상관없이 작업자마다 고정적인 신뢰도를 통해 라벨 정답을 준다고 가정하였고, 이러한 가정하에서 각 작업자의 신뢰도를 예측한 뒤 적절한 가중치를 작업자의 답변마다 다르게 적용하여 정답 라벨을 추론하였다. 우리는 보다 일반적인 상황을 반영할 수 있게 하기 위해 작업자의 신뢰도가 작업에 따라 달라질 수 있다는 전제하에 $d$-타입 작업자-작업 전문성 모델을 제안하였다. 이 모델에서, 우리는 주어진 라벨 추론 정확도를 달성하기 위한 최적의 샘플 복잡도를 이론적으로 규명하고, 몇 가지 가정하에 최적 성능을 달성하는 효율적인 알고리즘을 제안한다. 또한 인위 합성 데이터셋과 실제 데이터셋을 이용해 실험하여, 우리 알고리즘의 성능이 기존 개발된 알고리즘들의 성능을 능가하는 것을 보인다. 끝으로, 추가로 진행될 수 있는 연구 방향성을 제시하며 마무리한다.

서지기타정보

서지기타정보
청구기호 {DEE 23015
형태사항 iv, 90 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김도연
지도교수의 영문표기 : Hye Won Chung
지도교수의 한글표기 : 정혜원
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 85-88
주제 Crowdsourcing
Data labeling
Clustering
Task label inference
크라우드소싱
데이터 라벨링
클러스터링
작업 라벨 추론
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서