Dialogue agents that reenact existing gender stereotypes can cause harm by propagating those stereotypes. This study shows that providing a language model fine-tuned for personalized dialogue generation with a certain gender as its explicit persona biases its implicit persona in a direction that conforms to traditional gender stereotypes. To show this we collect a set of human generated questions that asks about the characteristics of a stereotypical male or female. Then, with a binary classifier that can distinguish between stereotypical and non-stereotypical answers, we compare the percentage of stereotypical answers generated by dialogue models given different personas. We find that personalized dialogue generation models are more likely to generate answers that conform to a certain gender's stereotypes when given that gender as their persona, compared to answers generated either without an explicit persona or with the opposite gender as its explicit persona.
기존의 성별 고정관념을 수행하는 대화 에이전트는 고정관념을 재생산하고 강화하여 문제가 될 수 있다. 본 연구에서는 페르소나 기반 대화를 위해 학습된 모델이 특정 성별을 명시적인 페르소나로 입력받는 경우 해당 성별의 고정관념에 순응하는 암묵적 페르소나를 선호하는 편향이 존재함을 보인다. 이를 위해 고정관념과 부합하는 남성과 여성의 특징에 대해 묻는 질문을 수집한다. 수집된 질문들에 대한 답변을 고정관념에 부합하는 답변과 그렇지 않은 답변으로 나눌 수 있는 이진 분류기를 훈련하고, 분류기를 이용하여 특정 페르소나가 주어졌을 때 대화 모델의 출력값이 고정관념에 부합하는 빈도를 측정하여 비교한다. 위 방법을 통하여 본 연구에서는 대화 모델에 특정 성별을 페르소나로 제공하는 경우, 반대 성별을 페르소나로 제공하는 경우와 페르소나를 제공하지 않는 경우에 비해 특정 성별의 고정관념에 부합하는 답변을 하는 빈도가 높아짐을 확인하였다.