Automated essay scoring (AES) is a useful tool in writing education, offering real-time essay scores for students and instructors. However, previous AES models do not provide specific rubric-based scores and actionable feedback for essay improvement, which are crucial for learning. Addressing this gap, we present FABRIC, a pipeline designed to enhance English writing classes by automatically generating 1) the overall scores, 2) detailed rubric-based scores, and 3) constructive feedback for essay improvement. The first component of the FABRIC is DREsS, a real-world Dataset for Rubric-based Essay Scoring (DREsS). DREsS includes EFL students’ written essays and scores annotated by instructors under three primary rubrics: content, organization, and language. The second component is CASE, a Corruption- based Augmentation Strategy for Essays, which improves the performance of the baseline model by 45.44%. The third element is EssayCoT, the Essay Chain-of-Thought prompting strategy which uses scores predicted from the AES model to generate more preferable feedback from instructors. We conduct a comprehensive evaluation of EssayCoT against standard prompting, involving 21 English education experts. The feedback generated by EssayCoT is 5.6 times more preferred for its quality and type of feedback. Lastly, we implement FABRIC in college English writing classes and evaluate its performance and students’ learning effect.
에세이 자동 평가는 실시간으로 학생의 에세이 점수를 제공하여 영작문 수업에서 유용한 도구로 활용될 수 있다. 그러나 기존의 연구는 하나의 총 점수만을 제공하여 구체적인 점수와 피드백을 제공하지 못한다. 본 연구에서는 영작문 교육에서 학생과 교수자를 위한 FABRIC 파이프라인을 제안한다. 이는 학생의 에세이에 대한 1) 총 점수, 2) 구체적인 루브릭 기반 점수, 3) 맞춤화된 피드백을 생성한다. 세가지 루브릭으로 구축한 에세이 자동 평가 데이터셋 DREsS와 파괴 기반의 데이터 증강 방법론 CASE로 에세이 자동 평가 모델의 성능을 기준 모델 대비 45.44% 향상한다. 피드백 생성을 위해 대형 언어 모델 프롬프팅 방법론 EssayCoT 를 제안한다. 영어 교육 전문가 21명의 평가 및 분석을 통해 피드백 품질과 유형 측면에서 EssayCoT로 생성된 피드백을 5.6배 더 선호함을 확인한다. 마지막으로 대학 영작문 수업에서 학생들을 통해 파이프라인의 성능과 교육 효과를 측정한다.