Large scale databases are more common in many application areas of data mining. Most of them contains an incredible amount of information in text format, thus as the volume of electronic information grows, so does its complexity to analyze it and understand it. In this thesis, various types of statistical feature extraction and classification methods are introduced, and the performances of text classification for the benchmark data set Reuters-21578 are compared. It is also suggested the possible improvements of text mining methods through the analysis of simulation results.
데이터 마이닝의 많은 적용분야에서는 대규모 데이터베이스(large scale databases)의 이용이 일반적이다. 그 응용분야의 대다수는 문서형식으로 된 아주 방대한 양의 정보를 담고 있다. 따라서 컴퓨터에 의해 제어되는 정보의양이 많아지는 만큼 그것을 분석하고 이해하는데 있어서의 복잡성이 증가하게 된다. 이 논문에서는 여러 가지 형태의 통계적 특징추출과 분류의 방법들을 소개하고, Reuters-21578 benchmark data set에 대한 문서 분류 성능에 대해 비교하였다. 실험 결과를 통해 우리는 텍스트 마이닝 성능이 더 향상될 가능성이 있음을 알 수 있다.