As the information which is controlled by the computer increases, it is made complicate to analyze and understand the information. Automatic Text Classification (TC) by their associates has greatly eased the control and processing of the massive volumes of information we face everyday. Among some of techniques used in handling the TC problems, we compare the Support Vector Machines (SVM) to the Relevance Vector Machines (RVM). The Support Vector Machine (SVM) is a decision machine so does not provide the posterior probabilities. While the Relevance Vector Machine (RVM) is relied on Bayesian formulation and provide the posterior probabilities. As the result of simulations, these two classifiers have similar performance measure except the number of selected vectors. The Relevance Vector Machine (RVM) is much sparser than the Support Vector Machine (SVM). So we can expect faster test time of the Relevance Vector Machine (RVM).
Data Mining의 많은 적용분야에서는 대규모 데이터 베이스의 이용이 일반적이다. 그 응용분야의 대다수는 문서형식으로 된 아주 방대한 양의 정보를 담고 있다. 따라서 컴퓨터에 의해 제어되는 정보의 양이 많아지는 만큼 그것을 분석하고 이해하는데 있어서의 복잡성이 증가하게 된다. 비슷한 특성끼리의 자동 텍스트 분류는 오늘날 우리가 직면하고 있는 대량의 정보처리를 다루기 편하게 만든다.
자동 텍스트 분류의 세가지 단계 중 분류에서 사용되는 분류기에는 여러가지가 있다. 그 중에서 뛰어난 성능으로 support vector machine (SVM)이 널리 이용되고 있다. 이 논문에서는 SVM와 많은 부분을 공유하면서 추가적으로 베이지안 추정 학습에 기초한 relevance vector machine (RVM)을 다루고, Reuters-21578 데이터를 이용하여 SVM와 RVM의 성능을 비교하였다. 그 결과 RVM이 SVM과 비슷한 성능을 보이면서 보다 적은 벡터수로 더욱 성김을 알 수 있었다. 그리고 SVM과 달리 RVM은 확률적인 해답을 제공할 수 있음을 보여주었다. 그리고 RVM은 많은 계산량으로 learning time이 길지만, 최종적으로 사용하게 되는 자료의 수가 상당히 적기때문에 새로운 데이타에 적용시, SVM과 비교하여 비교적 짧은 test time을 기대할 수 있다. 하지만 RVM의 많은 계산량은 한번에 다룰 수 있는 자료의 수를 제한하기 때문에 확률을 기반으로 하는 분류기로서의 성능 향상에 어려움이 있다. 그래서 대량의 자료를 다루기 위해 적은 자료를 이용하여 RVM의 취약점을 보완할 수 있다면 더 나은 성능의 향상을 기대해 볼 수 있을 것이다.