서지주요정보
Reducing annotation artifacts in crowdsourcing datasets for natural language processing = Annotation artifact를 감소시키는 자연어처리 데이터셋의 크라우드소싱 기법
서명 / 저자 Reducing annotation artifacts in crowdsourcing datasets for natural language processing = Annotation artifact를 감소시키는 자연어처리 데이터셋의 크라우드소싱 기법 / Donghoon Han.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8037003

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 21035

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Many NLP datasets are generated with crowdsourcing because it is a relatively low-cost and scalable solution. One important issue in datasets built with crowdsourcing is annotation artifacts. That is, a model trained with such a dataset learns annotators' writing strategies that are irrelevant to the task itself. While this problem has already been identified and studied, there is limited research approaching it from the perspective of crowdsourcing workflow design. We suggest a simple but powerful adjustment to the dataset collection procedure: instruct workers not to use a word that is highly indicative of annotation artifacts. In the case study of natural language inference dataset construction, the results from two rounds of studies on Amazon Mechanical Turk reveal that applying a word-level constraint reduces the annotation artifacts from the generated dataset by 9.2% in terms of accuracy-gap score at the time cost of 19.7 second increase per unit task.

비교적 적은 비용과 큰 확장성을 지닌 크라우드소싱 기법을 활용하여 자연어 처리 데이터셋을 형성하는 사례가 늘고 있다. 그러나 크라우드소싱 기법을 활용하여 데이터셋을 형성할 경우 annotation artifact라는 문제가 발생할 수 있다. Annotation artifact는 크라우드소싱 작업자의 태스크와 무관한 글쓰기 전략으로써, annotation artifact를 지닌 데이터셋으로 학습한 모델은 해당 전략을 학습할 수 있고, 따라서 태스크에 대한 학습이 저해될 수 있다. 이를 해결하기 위한 연구가 꾸준히 진행되고 있으나 크라우드소싱을 통한 데이터셋 형성 과정을 개선하는 연구는 미흡하다. 본 학위논문에서는 annotation artifact를 일으킬 것으로 예측되는 단어의 사용을 크라우드소싱 과정에서 통제함으로써, 간단하지만 효과적인 데이터셋 수집 개선 방안을 제안한다. 아마존 Mechanical Turk 플랫폼에서 자연어 추론 데이터셋을 수집할 때 사용 단어에 제한을 가한 결과, 기존 방식에 비해 단위 태스크 당 19.7초가 더 소요된 반면, 정확도 차이를 바탕으로 측정한 annotation artifact는 9.2% 감소함을 확인했다.

서지기타정보

서지기타정보
청구기호 {MCS 21035
형태사항 iv, 23 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한동훈
지도교수의 영문표기 : Haeyun Oh
지도교수의 한글표기 : 오혜연
공동지도교수의 영문표기 : Juho Kim
공동지도교수의 한글표기 : 김주호
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 19-21
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서