서지주요정보
KRIT: a Korean readability index with a hybrid transformer = KRIT: Transformer 기반 한글 가독성 지표 모델
서명 / 저자 KRIT: a Korean readability index with a hybrid transformer = KRIT: Transformer 기반 한글 가독성 지표 모델 / Hee Ju Wi.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038965

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 22024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The readability index is an index indicating the level of text. It can be used in various fields, such as book recommendation, writing ability evaluation, personalized recommendation, online bot detection and even in fake news analysis. The traditional readability models utilize simple linguistic features with simple regression models. In very recent years, readability research utilizing deep learning models has been conducted. However, in Korea, readability research is very scarce and there are even no public datasets or automated baseline models while English readability research has. The existing Korean readability indexes were developed using a simple regression model, evaluated with very small data and even do not evaluated with the evaluation metrics. Therefore, we propose a novel Korean readability index model, KRIT, that considers both grammatical structure and lexical meaning based on transformer encoder with transformer-based pretrained language model, BERT, for Korean. For the dataset, we used 25,449 sentences from Korean textbook data, written for ages 8-16, grouped into 4 grade-level classes. We compared the performance of KRIT with the existing Korean or English readability model and demonstrated that our proposed model outperforms other baselines with the accuracy of 0.746 and MAE 0.327. According to our knowledge, it is a first attempt to use deep learning NLP techniques, pretrained word embedding and transformer encoder architecture, for Korean readability assessment and evaluated with enough data.

가독성 지표는 글의 난이도를 나타내는 지표로 일반적으로 적합한 독자의 나이를 의미한다. 이는 교육분야 뿐만 아니라 최근에는 추천 시스템, 온라인 봇 탐지, 가짜 뉴스 분석 등의 다양한 분야에서 사용되고 있다. 전통적인 가독성 지표 모델은 피상적인 언어적 특징을 이용한 간단한 회귀 모델로 제작되었다. 최근에는 딥러닝 기반 가독성 모델 연구가 진행되고 있다. 하지만, 영어에 비해 한국에서는 거의 진행되고 있지 않다. 영어와 달리 한글 가독성 지표 평가를 위한 공개된 데이터셋이나 자동화된 모델이 없고, 평가 및 학습에 사용된 데이터 수가 매우 적어 평가를 신뢰하기 어렵다. 따라서 이 연구에서는 새로운 한글 가독성 지표 모델인 KRIT을 제안한다. 이 모델은 텍스트의 문법적, 어휘적 의미를 모두 고려하기 위해 SOTA 의존 문법 파서인 KLUE-DP와 BERT의 단어 임베딩 등을 이용한다. 또한 임베딩 간의 결합을 위해 트랜스포터 인코더 구조를 이용한다. 데이터셋으로는 초등 중등 국어 교과서에서 수집한 25,449 개의 문장을 사용하였으며, 2 3개 학년을 하나의 집단으로 총 4개의 클래스로 분류하였다. 제안하는 모델은 정확도 74.6%, MAE 0.327, RMSE 0.703 를 보였으며, 이는 기존 모델 대비 가장 우수한 성능이다.

서지기타정보

서지기타정보
청구기호 {MCS 22024
형태사항 iv, 26 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 위희주
지도교수의 영문표기 : Sue Bok Moon
지도교수의 한글표기 : 문수복
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 20-25
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서