The abstractive text summary is a problem of generating a summary in a different expression from the original text, unlike the extractive summary that extracts the part where the key information appears from the original text composed in natural language. In order to solve this problem, studies have been conducted based on syntax and semantics in several studies, and in recent years, studies of an seq2seq based method have been conducted with the development of a language model. However, in the seq2seq, problems such as subject-predicate mismatch, knowing what's important, same token repetition, and generation of [UNK] occur. To improve this problem, this study proposes a method for improving performance by combining syntax, semantic information, and word correction through comparison of original text in encoder-decoder model using pretrained encoder, and analyzes the impact of each part.
생성적 문서 요약이란 자연언어로 구성된 원문에서 핵심 정보가 나오는 부분을 추출하는 추출적 요약과 달리 원문과 다른 표현으로 요약문을 생성하는 문제이다. 이 문제를 풀기 위해서 여러 연구에서 구조 기반, 의미론 기반 분석 결과를 활용한 연구가 진행되어 왔고, 최근에는 언어 모델의 발전으로 seq2seq 구조의 방식이 연구되었다. 그러나 seq2seq 구조에서는 주어-술어 불일치, 중요 내용 파악, 같은 글자 반복, [UNK] 생성 등의 문제가 생긴다. 본 연구에서는 이런 문제를 개선하기 위해 사전학습 인코더를 활용한 인코더-디코더 구조의 모델에 구문, 의미 정보 추가와 원문 비교를 통한 단어 교정을 결합하여 성능을 향상시키는 법을 제시하고 각각의 방법이 끼치는 영향에 대해서 분석한다.