서지주요정보
Data augmentation for abusive language detection via back-translation and domain knowledge = 언어폭력 탐지를 위한 데이터 증강: 역번역과 도메인 지식을 활용하여
서명 / 저자 Data augmentation for abusive language detection via back-translation and domain knowledge = 언어폭력 탐지를 위한 데이터 증강: 역번역과 도메인 지식을 활용하여 / Jisu Shin.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040005

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 22058

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As abusive language has emerged as one of the social problems, many researchers have attempted to automatically detect abusive language from online texts. The researchers have addressed various aspects of abusive languages, such as hate speech, derogatory language, and profanity, and performed various detection tasks, such as abusiveness detection, target detection, or target identification. In this regard, such diverse aspects of abusive language call for new datasets. However, constructing a new dataset is undesirable because it is not efficient due to the labor-intensive nature of annotations. Accordingly, there is a trend to improve detection performance by using data augmentation techniques in abusive language detection. In this study, we propose automatically augmenting the existing dataset by employing back-translation, maintaining the meaning of the original data but securing the diversity of words and structures. Previous studies using the back-translation augmentation showed performance degradation due to the use of a specific pivot language. Still, our study experimentally showed that data augmentation with guaranteed linguistic diversity is possible by using various pivot languages. In addition, in order to solve the limitations presented in previous studies, we introduce a post-processing method based on domain knowledge and validate its effectiveness through experiments.

온라인상 언어폭력이 사회적 문제로 인식되면서, 최근 이에 대한 자동 탐지 노력이 지속되고 있다. 언어폭력의 다양하고 세부적인 측면을 다룰수록 새로운 데이터를 더 많이 필요로 하지만 주석자의 노동력을 동반한 데이터셋 구축은 효율적이지 못하다는 문제가 있다. 이에 언어폭력 탐지 분야에서도 데이터 증강 기법을 활용하여 탐지 성능의 향상을 도모하는 추세이다. 본 연구에서는 기존 데이터의 의미를 유지하면서도 단어와 구조의 다양성을 확보할 수 있는 증강 기법인 역 번역 기법을 활용하여 언어폭력 데이터를 증강한다. 역 번역 증강 기법을 활용한 선행연구는 특정 주축어에 따른 성능 저하를 한계로 삼았으나, 본 연구는 다양한 주축어를 활용함에 따라 언어적 다양성이 보장된 데이터 증강이 가능함을 실험적으로 보였다. 또한 선행연구에서 제시한 한계를 해결하기 위하여 도메인 지식을 기반으로 한 사후 처리 방법을 제시하고, 실험을 통해 그 효과를 입증하였다.

서지기타정보

서지기타정보
청구기호 {MCS 22058
형태사항 iii, 32 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신지수
지도교수의 영문표기 : Jong C. Park.
지도교수의 한글표기 : 박종철
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 22-30
주제 Natural Language Processing
Abusive Language Detection
Data Augmentation
Back-translation
자연 언어 처리
언어폭력 탐지
데이터 증강
역번역
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서