Word embedding is an influential framework to quantify the meaning of a word, which is widely used in machine learning at a pre-processing level for natural language processing (NLP). However, word embedding trained with a large number of contexts encodes not only general syntactic and semantic meaning of a word, but also the stereotypes and biases that people may have. This thesis proposes a method to indirectly mitigate the stereotypes in the trained word embedding by modulating the dimension of sentimental attributes in a human entity without imposing equal probability on the compatible social groups. To prevent the word embedding from creating problematic predictions such as a stereotype threat, we modulate the strength of the association between a human entity and sentimental attribute and indirectly reduce the gender bias of the embedding model. We show that the proposed method preserves the overall embedding performance. We also confirm that increasing the strength of the association between human entities and sentimental attributes amplifies the model bias through experiment.
단어 임베딩은 어휘의 의미를 효과적으로 수치화하는 모델로, 자연언어처리를 하는 기계학습의 전처리 과정에서 미리 학습된 임베딩이 널리 사용되고 있다. 하지만 대량의 문맥 텍스트로 학습된 단어 임베딩은 단어의 기본 의미뿐만 아니라 사람이 가질 수 있는 고정관념과 편견 또한 학습되어 수치화된다는 문제점이 있다. 본 논문은 대립하는 사회 집단에 대해 동등한 확률을 가지도록 강제하지 않고, 인물 개체에 대한 감성 차원을 조정하여 학습된 단어 임베딩이 가지는 고정관념들을 간접적으로 완화하기 위한 방법을 제시한다. 암시적 감성을 지닌 속성 단어와 고정관념의 대상이 될 수 있는 인물 개체 사이의 연관 정도를 조정하여 고정관념의 압박과 같이 문제되는 예측 결과가 생성되는 것을 방지하고 간접적으로 임베딩 모델의 편향성을 줄일 수 있다는 것을 실험을 통해 보인다. 성을 사회적 상태로 지정하였을 때 제안 방법이 적용된 임베딩은 모델 편향성을 완화하면서 동시에 전체적인 임베딩 성능은 유지된다. 그리고, 인물 개체에 대한 감성 강도가 커질수록 모델 편향성이 심화되는 관계가 있음을 확인하였다.