Presentation slides have become essential for education materials, business meetings, and even general occasions. With the exploding number of presentation slides, the automatic clustering of slides according to their concepts is a challenging. Traditional clustering research had just focused on long textual data. In recent times, much attention has been directed to developing methods for clustering short text. However, the slide is not just short text but brief text based on keywords. In order to identify each cluster of slides, our research propose vector space extraction methods based on external knowledge and slide features. After analyzing word distribution of the slides, we developed the extraction methods from the analysis results. With proposed methods, we compared the clustering results with EM-algorithm from the Weka. Through the comparison, we verified that utilizing external knowledge and slide features increase the performance of micro precision. The results show that, our proposed methods can increase the effectiveness of extraction vector space when search or recommendation should be conducted mainly with brief text.
발표용 슬라이드 문서는 교육, 회의 등의 다양하고 일반적인 상황에서 쓰이고 있다. 이처럼 폭발적으로 늘어나는 슬라이드 문서를 클러스터링하는 기술이 필요하다. 전통적인 클러스터링 연구들은 긴 문서에 국한되어 있다. 최근에는 짧은 문서를 클러스터링하는 연구들 또한 진행되고 있다. 하지만 슬라이드는 짧은 문서가 아닌 중요단어 기반의 함축적인 문서이다. 본 연구는 슬라이드를 분류하기 위해, 외부 연관 지식 및 슬라이드 고유 특성 기반의 벡터공간 추출 기법들을 제안한다. 슬라이드의 단어 분포를 분석한 후, 그 결과로부터 벡터공간 추출 기법들을 개발하였고, 각 벡터공간들 간의 EM-알고리즘 분류 결과를 비교하였다. 비교를 통해 외부 연관 지식 및 슬라이드 특성을 사용했을 때, 정밀도의 향상이 있다는 것을 검증하였다. 이는 슬라이드 환경에서 검색 및 추천하고자 할 때, 본 연구에서 제안하는 방법들을 활용하여 그 효과를 높일 수 있음을 보여준다.