This study addresses the problem of identifying sentence types in Korean. Since the type of a given sentence signals linguistic modality and indicates the speaker’s attitude towards the listener, it is useful information in various applications such as speech synthesis, where the modality plays an important role in improving the quality of output. In Korean, the type of sentence is categorized into declarative, imperative, propositive, interrogative, and exclamatory, and is typically determined by the final endings and punctuation mark. However, it has previously been reported that more than half of the Korean dialogue sentences have final endings that appear in three types of sentence: declarative, imperative, and propositive, causing ambiguity in the identification of sentence types. In this study, we present linguistic clues that can be used for resolving this ambiguity: prefinal endings, negative forms, main verbs, subjects, adverbs, vocative words, auxiliaries, and coordinate and adverbial clauses. These clues are divided into two groups according to how much they contribute to distinguishing the sentence types, based on the meaning and usage of clue words. We show two systems for automatically identifying the sentence type: a heuristic, rule-based system and an SVM-based machine learning system. They are evaluated on datasets consisting of TV drama scripts which are a rich source of dialogue sentences. The experimental results demonstrate that the SVM-based system gives a slightly better performance overall, but also that the performance of the rule-based system is more stable over other datasets. It also turns out from the experiment that most of the sentences our systems failed to identify actually need to be analyzed on a discourse or pragmatic level, especially for the propositive type.
본 연구에서는 한국어 문장 유형을 자동으로 파악하는 방법을 제안한다. 한국어에서 문장 유형은 크게 평서문, 명령문, 청유문, 의문문, 감탄문의 다섯 가지로 분류되는데, 이를 판단할 때 가장 중요한 기준이 되는 것은 종결어미와 문장부호로 알려져 있다. 가령 “어제 재미있었니?”, “점심은 먹었냐?”와 같은 문장은 문장부호로 물음표를, 종결어미로는 각각 ‘-니’, ‘-냐’를 사용하였으므로 의문문이라고 판단할 수 있으며, “손 씻어라.”, “어서 드십시오.”와 같은 문장은 문장부호로 마침표를, 종결어미로는 각각 ‘-어라’, ‘-십시오’를 사용하였으므로 명령문임을 알 수 있다. 그러나 동일한 문장부호와 종결어미가 쓰인 문장도 두 가지 이상의 문형으로 해석되는 경우가 있는데, 가령 “얼른 약을 드세요.”, “전 생선이 싫어요.”와 같은 문장에서는 마침표와 ‘-어요’라는 동일한 문장부호, 종결어미가 사용되었지만 두 문장은 각각 명령문, 평서문으로 서로 다른 문형임을 알 수 있다. 이와 같이 한국어 문장에는 문장부호와 종결어미만으로 문형을 결정하기 어려운 경우가 많은데, 그 이유는 위에서 보인 ‘-어요’와 같이 다양한 문형에 사용되는 몇 가지 종결어미가 존재하기 있기 때문이다. 특히 해요체 중 하나인 ‘-어요’는 경우에 따라 의문문, 명령문, 청유문, 평서문의 서술어에 모두 사용될 수 있으므로 문형의 중의성을 유발하는 대표적인 종결어미라고 할 수 있다. 하지만 일상 대화나 담화에서는 이러한 종결어미가 사용된 문장일지라도 문형 결정에 도움을 주는 단서들이 문장 내에 드러나는 경우가 많은 것을 확인할 수 있다. 가령 “식기 전에 얼른 먹어요.”는 ‘얼른’이라는 부사를 통해 명령문일 가능성이 높다고 판단할 수 있으며, “전 생선이 싫어요.”는 ‘싫다’라는 용언을 통해 적어도 명령문이 될 수 없음을 알 수 있다. 본 연구에서는 문장 내에서 문형의 중의성을 유발하는 종결어미가 사용된 문장에 대해 형태소 및 구문 단위의 분석을 적용하여 문형을 결정하는데 중요한 역할을 하는 단서들을 찾아내고, 이를 통해 문형의 중의성을 해소하는 방법을 제시한다. 이를 바탕으로 규칙 기반의 시스템과 Support Vector Machine (SVM)을 이용한 기계학습 기반의 시스템을 구현하여 대화체 문장으로 구성된 TV 드라마 대본 말뭉치 상에서 실험한 결과 80% 이상의 정답률을 얻을 수 있었다. 또한 두 시스템을 비교하였을 때 SVM 기반의 시스템이 더 높은 성능을 보였으나 규칙 기반의 시스템이 더 안정된 성능을 보이는 것을 확인하였다.