서지주요정보
Analyzing stereotypical persona bias in personalized dialogue generation models = 페르소나 대화 모델의 고정 관념 편향 분석
서명 / 저자 Analyzing stereotypical persona bias in personalized dialogue generation models = 페르소나 대화 모델의 고정 관념 편향 분석 / Youngin Lee.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040843

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 23028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Dialogue agents that reenact existing gender stereotypes can cause harm by propagating those stereotypes. This study shows that providing a language model fine-tuned for personalized dialogue generation with a certain gender as its explicit persona biases its implicit persona in a direction that conforms to traditional gender stereotypes. To show this we collect a set of human generated questions that asks about the characteristics of a stereotypical male or female. Then, with a binary classifier that can distinguish between stereotypical and non-stereotypical answers, we compare the percentage of stereotypical answers generated by dialogue models given different personas. We find that personalized dialogue generation models are more likely to generate answers that conform to a certain gender's stereotypes when given that gender as their persona, compared to answers generated either without an explicit persona or with the opposite gender as its explicit persona.

기존의 성별 고정관념을 수행하는 대화 에이전트는 고정관념을 재생산하고 강화하여 문제가 될 수 있다. 본 연구에서는 페르소나 기반 대화를 위해 학습된 모델이 특정 성별을 명시적인 페르소나로 입력받는 경우 해당 성별의 고정관념에 순응하는 암묵적 페르소나를 선호하는 편향이 존재함을 보인다. 이를 위해 고정관념과 부합하는 남성과 여성의 특징에 대해 묻는 질문을 수집한다. 수집된 질문들에 대한 답변을 고정관념에 부합하는 답변과 그렇지 않은 답변으로 나눌 수 있는 이진 분류기를 훈련하고, 분류기를 이용하여 특정 페르소나가 주어졌을 때 대화 모델의 출력값이 고정관념에 부합하는 빈도를 측정하여 비교한다. 위 방법을 통하여 본 연구에서는 대화 모델에 특정 성별을 페르소나로 제공하는 경우, 반대 성별을 페르소나로 제공하는 경우와 페르소나를 제공하지 않는 경우에 비해 특정 성별의 고정관념에 부합하는 답변을 하는 빈도가 높아짐을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 23028
형태사항 iii, 15 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이영인
지도교수의 영문표기 : Soyeon Ahn
지도교수의 한글표기 : 안소연
공동지도교수의 영문표기 : Alice Oh
공동지도교수의 한글표기 : 오혜연
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 12-14
주제 Fairness in Natural Language Processing
Personalized Dialogue Generation
Stereotyping Bias
Gender Bias
자연언어처리의 공정성
페르소나 기반 대화 모델
고정관념 편향
성별 편향
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서