Language learners in NLP data annotation = 자연어 처리 데이터 어노테이션에서의 언어 학습자 기용
서명 / 저자 Language learners in NLP data annotation = 자연어 처리 데이터 어노테이션에서의 언어 학습자 기용 / Haneul Yoo.
발행사항 [대전 : 한국과학기술원, 2022].
MCS 22060

Researchers have traditionally recruited native speakers to provide annotations for the widely used benchmark datasets. But there are languages for which recruiting native speakers is difficult, and it would help to get learners of those languages to annotate the data. In this paper, we investigate whether language learners can contribute annotations to the benchmark datasets. In a carefully controlled annotation experiment, we recruit 36 language learners, provide two types of additional resources (dictionaries and machine-translated sentences), and perform mini-tests to measure their language proficiency. We target three languages, English, Korean, and Indonesian, and four NLP tasks, sentiment analysis, natural language inference, named entity recognition, and machine reading comprehension. We find that language learners, especially those with intermediate or advanced language proficiency, are able to provide fairly accurate labels with the help of additional resources. Moreover, we show that data annotation improves learners' language proficiency in terms of vocabulary and grammar. The implication of our findings is that broadening the annotation task to include language learners can open up the opportunity to build benchmark datasets for languages for which it is difficult to recruit native speakers.

자연어 처리 연구는 관행적으로 데이터 어노테이션에서 원어민을 어노테이터로 모집해왔다. 이 논문에서는 이 관행적인 기준에 의문을 갖고, 전 세계의 수 많은 사람들이 새로운 언어를 배우고 있음에 집중한다. 즉, 원어민 대신 언어 학습자로 어노테이터인력 풀을 넓힌다면 적합한 원어민을 찾기 어렵고 레이블된 데이터가 부족하다는 기존의 문제를 해결하는데 도움이 될 것임을 제안한다. 36명의 언어 학습자를 대상으로 사전 혹은 기계번역된 번역문을 주고 영어, 한국어, 인도네시아어 3개 언어와 감정 분석, 자연어 추론, 개체명 인식, 기계 독해 4가지 과제를 대상으로 데이터 어노테이션 및 언어 학습 실험을 진행하였다. 언어 학습자는 충분한 외부 자원이 주어진다면 믿을만 한 수준의 레이블을 만들어낼 수 있었고, 이는 중·고급 학습자에서 가장 효과적이었다. 또한, 데이터 어노테이션 과정은 어휘와 문법 두 측면에서 모두 학습자의 언어 능력을 향상시켰다. 추후 기존 자원과 원어민을 찾기 어려운 저 자원 언어를 대상으로 하는 자연어 처리 분야에서 데이터 어노테이션을 수행할 때 언어 학습자를 기용할 것을 제안한다.


청구기호 {MCS 22060
형태사항 iii, 24 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 유하늘
지도교수의 영문표기 : Alice Oh
지도교수의 한글표기 : 오혜연
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 21-23
주제 Natural Language Processing
Data Annotation
Language Learning
데이터 어노테이션
언어 학습





