서지주요정보
Mitigating stereotypes in word embedding through sentiment modulation = 감성 차원 조정을 통한 고정관념이 완화된 단어 임베딩
서명 / 저자 Mitigating stereotypes in word embedding through sentiment modulation = 감성 차원 조정을 통한 고정관념이 완화된 단어 임베딩 / Huije Lee.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033857

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 19026

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Word embedding is an influential framework to quantify the meaning of a word, which is widely used in machine learning at a pre-processing level for natural language processing (NLP). However, word embedding trained with a large number of contexts encodes not only general syntactic and semantic meaning of a word, but also the stereotypes and biases that people may have. This thesis proposes a method to indirectly mitigate the stereotypes in the trained word embedding by modulating the dimension of sentimental attributes in a human entity without imposing equal probability on the compatible social groups. To prevent the word embedding from creating problematic predictions such as a stereotype threat, we modulate the strength of the association between a human entity and sentimental attribute and indirectly reduce the gender bias of the embedding model. We show that the proposed method preserves the overall embedding performance. We also confirm that increasing the strength of the association between human entities and sentimental attributes amplifies the model bias through experiment.

단어 임베딩은 어휘의 의미를 효과적으로 수치화하는 모델로, 자연언어처리를 하는 기계학습의 전처리 과정에서 미리 학습된 임베딩이 널리 사용되고 있다. 하지만 대량의 문맥 텍스트로 학습된 단어 임베딩은 단어의 기본 의미뿐만 아니라 사람이 가질 수 있는 고정관념과 편견 또한 학습되어 수치화된다는 문제점이 있다. 본 논문은 대립하는 사회 집단에 대해 동등한 확률을 가지도록 강제하지 않고, 인물 개체에 대한 감성 차원을 조정하여 학습된 단어 임베딩이 가지는 고정관념들을 간접적으로 완화하기 위한 방법을 제시한다. 암시적 감성을 지닌 속성 단어와 고정관념의 대상이 될 수 있는 인물 개체 사이의 연관 정도를 조정하여 고정관념의 압박과 같이 문제되는 예측 결과가 생성되는 것을 방지하고 간접적으로 임베딩 모델의 편향성을 줄일 수 있다는 것을 실험을 통해 보인다. 성을 사회적 상태로 지정하였을 때 제안 방법이 적용된 임베딩은 모델 편향성을 완화하면서 동시에 전체적인 임베딩 성능은 유지된다. 그리고, 인물 개체에 대한 감성 강도가 커질수록 모델 편향성이 심화되는 관계가 있음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 19026
형태사항 iii, 27 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이희제
지도교수의 영문표기 : Jong C. Park
지도교수의 한글표기 : 박종철
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 23-25
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서