As more people turn online for news, there are more opportunities and a wider platform to share unregulated comments, which may lead to more instances of personal attacks and verbal abuse. Our study aims to classify hate speech in news comments and construct a dictionary of Korean hate speech. We used comments from daily ranking news in four sections of the news portal. We build a Korean hate speech dictionary that uses a word embedding technique, and we implement the classification of hate speech through various machine learning algorithms comparison. Then we present the optimal model by comparing bag-of-words and dictionary based methods. The results of this study can be used as a fundamental study for identifying Korean hate speech.
지난 온라인 상 뉴스 소비가 증가하면서 뉴스 포털 내 정제되지 않은 다양한 댓글들이 공유되며 인신 공격 및 욕설과 같은 혐오성 발언이 문제가 되고 있다. 이 연구는 뉴스 댓글 내의 혐오 발언을 분류하고, 한글 혐오 발언 연구에 활용될 수 있는 혐오 발언 사전을 구축하는 것을 목표로 한다. 뉴스 포털 내 네 가지 섹션의 랭킹 뉴스에 등장하는 댓글 데이터를 활용했다. 다양한 기계 학습 기반의 분류 성능 비교를 통해 혐오 발언 분류를 시행하고, 단어 임베딩을 통해 구축한 한글 혐오 발언 사전을 기반으로 한 사전 기반 분류를 통해 최적의 모델을 제시한다. 이 연구의 결과는 한글 혐오 발언 분석 및 탐지를 위한 기반 연구로써 활용 될 수 있다.