The readability index is an index indicating the level of text. It can be used in various fields, such as book recommendation, writing ability evaluation, personalized recommendation, online bot detection and even in fake news analysis. The traditional readability models utilize simple linguistic features with simple regression models. In very recent years, readability research utilizing deep learning models has been conducted. However, in Korea, readability research is very scarce and there are even no public datasets or automated baseline models while English readability research has. The existing Korean readability indexes were developed using a simple regression model, evaluated with very small data and even do not evaluated with the evaluation metrics.
Therefore, we propose a novel Korean readability index model, KRIT, that considers both grammatical structure and lexical meaning based on transformer encoder with transformer-based pretrained language model, BERT, for Korean. For the dataset, we used 25,449 sentences from Korean textbook data, written for ages 8-16, grouped into 4 grade-level classes. We compared the performance of KRIT with the existing Korean or English readability model and demonstrated that our proposed model outperforms other baselines with the accuracy of 0.746 and MAE 0.327. According to our knowledge, it is a first attempt to use deep learning NLP techniques, pretrained word embedding and transformer encoder architecture, for Korean readability assessment and evaluated with enough data.
가독성 지표는 글의 난이도를 나타내는 지표로 일반적으로 적합한 독자의 나이를 의미한다. 이는 교육분야 뿐만 아니라 최근에는 추천 시스템, 온라인 봇 탐지, 가짜 뉴스 분석 등의 다양한 분야에서 사용되고 있다. 전통적인 가독성 지표 모델은 피상적인 언어적 특징을 이용한 간단한 회귀 모델로 제작되었다. 최근에는 딥러닝 기반 가독성 모델 연구가 진행되고 있다. 하지만, 영어에 비해 한국에서는 거의 진행되고 있지 않다. 영어와 달리 한글 가독성 지표 평가를 위한 공개된 데이터셋이나 자동화된 모델이 없고, 평가 및 학습에 사용된 데이터 수가 매우 적어 평가를 신뢰하기 어렵다. 따라서 이 연구에서는 새로운 한글 가독성 지표 모델인 KRIT을 제안한다. 이 모델은 텍스트의 문법적, 어휘적 의미를 모두 고려하기 위해 SOTA 의존 문법 파서인 KLUE-DP와 BERT의 단어 임베딩 등을 이용한다. 또한 임베딩 간의 결합을 위해 트랜스포터 인코더 구조를 이용한다. 데이터셋으로는 초등 중등 국어 교과서에서 수집한 25,449 개의 문장을 사용하였으며, 2 3개 학년을 하나의 집단으로 총 4개의 클래스로 분류하였다. 제안하는 모델은 정확도 74.6%, MAE 0.327, RMSE 0.703 를 보였으며, 이는 기존 모델 대비
가장 우수한 성능이다.