서지주요정보
Mitigating language-dependent ethnic bias in BERT = BERT의 민족적 선입견에 대한 분석 및 해결 방안
서명 / 저자 Mitigating language-dependent ethnic bias in BERT = BERT의 민족적 선입견에 대한 분석 및 해결 방안 / Jaimeen Ahn.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038963

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 22022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

BERT and other large-scale language models (LMs) contain gender and racial bias. They also exhibit other dimensions of social bias, most of which have not been studied in depth, and some of which vary depending on the language. In this paper, we study ethnic bias and how it varies across languages by analyzing and mitigating ethnic bias in monolingual BERT for English, German, Spanish, Korean, Turkish, and Chinese. To observe and quantify ethnic bias, we develop a novel metric called Categorical Bias score. Then we propose two methods for mitigation; first using a multilingual model, and second using contextual word alignment of two monolingual models. We compare our proposed methods with monolingual BERT and show that these methods effectively alleviate the ethnic bias. Which of the two methods works better depends on the amount of NLP resources available for that language. We additionally experiment with Arabic and Greek to verify that our proposed methods work for a wider variety of languages.

사전학습 언어 모델인 BERT는 최근 자연어처리 연구에서 주로 사용되어 왔지만 최근 들어 사전학습 언어 모델이 가지는 편향 문제가 대두 되였다. 하지만 성적, 인종적 편향 이외의 사회적인 편향들은 연구 커뮤니 티에서 주목받지 못하였다. 이 논문에서는 언어에 따라 달라지는 민족적 편향에 대하여 다루었다. 특히 총 6가지 언어에서 (영어, 독일어, 스페인어, 한국어, 터키어, 중국어) 단일 언어 모델의 민족적 편향의 대상이 달라진다는 것을 밝혔다. 더 나아가, 민족적 편향을 관찰하고 측정하기 위한 Categorical Bias Score를 제 안하고 이러한 편향을 줄이기 위해 이 논문에서는 다중 언어 모델, 문맥 단어 조정 이렇게 두 가지 방법을 제안하였다. 위 두 가지 제안된 방법이 효과적으로 민족적 편향 수치를 줄인다는 것을 보이고 어떻게 민족적 편향이 줄어드는지 보여주었다. 추가로, 더욱 다양한 언어 (아랍어, 그리스어)에서도 이 방법론이 효과가 있다는 것을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 22022
형태사항 iv, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 안재민
지도교수의 영문표기 : Hae Yun Oh
지도교수의 한글표기 : 오혜연
수록잡지명 : "Mitigating Language-Dependent Ethnic Bias in BERT". Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, v1, 533–549(2021)
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 19-23
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서