한국과학기술원 도서관

서지주요정보
Text mining with probability-based classifier = 확률 기반 분류기를 이용한 텍스트 마이닝
서명 / 저자	Text mining with probability-based classifier = 확률 기반 분류기를 이용한 텍스트 마이닝 / Su-Jin Cho.
발행사항	[대전 : 한국과학기술원, 2007].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8018327

소장위치/청구기호

학술문화관(문화관) 보존서고

MMA 07010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As the information which is controlled by the computer increases, it is made complicate to analyze and understand the information. Automatic Text Classification (TC) by their associates has greatly eased the control and processing of the massive volumes of information we face everyday. Among some of techniques used in handling the TC problems, we compare the Support Vector Machines (SVM) to the Relevance Vector Machines (RVM). The Support Vector Machine (SVM) is a decision machine so does not provide the posterior probabilities. While the Relevance Vector Machine (RVM) is relied on Bayesian formulation and provide the posterior probabilities. As the result of simulations, these two classifiers have similar performance measure except the number of selected vectors. The Relevance Vector Machine (RVM) is much sparser than the Support Vector Machine (SVM). So we can expect faster test time of the Relevance Vector Machine (RVM).

Data Mining의 많은 적용분야에서는 대규모 데이터 베이스의 이용이 일반적이다. 그 응용분야의 대다수는 문서형식으로 된 아주 방대한 양의 정보를 담고 있다. 따라서 컴퓨터에 의해 제어되는 정보의 양이 많아지는 만큼 그것을 분석하고 이해하는데 있어서의 복잡성이 증가하게 된다. 비슷한 특성끼리의 자동 텍스트 분류는 오늘날 우리가 직면하고 있는 대량의 정보처리를 다루기 편하게 만든다. 자동 텍스트 분류의 세가지 단계 중 분류에서 사용되는 분류기에는 여러가지가 있다. 그 중에서 뛰어난 성능으로 support vector machine (SVM)이 널리 이용되고 있다. 이 논문에서는 SVM와 많은 부분을 공유하면서 추가적으로 베이지안 추정 학습에 기초한 relevance vector machine (RVM)을 다루고, Reuters-21578 데이터를 이용하여 SVM와 RVM의 성능을 비교하였다. 그 결과 RVM이 SVM과 비슷한 성능을 보이면서 보다 적은 벡터수로 더욱 성김을 알 수 있었다. 그리고 SVM과 달리 RVM은 확률적인 해답을 제공할 수 있음을 보여주었다. 그리고 RVM은 많은 계산량으로 learning time이 길지만, 최종적으로 사용하게 되는 자료의 수가 상당히 적기때문에 새로운 데이타에 적용시, SVM과 비교하여 비교적 짧은 test time을 기대할 수 있다. 하지만 RVM의 많은 계산량은 한번에 다룰 수 있는 자료의 수를 제한하기 때문에 확률을 기반으로 하는 분류기로서의 성능 향상에 어려움이 있다. 그래서 대량의 자료를 다루기 위해 적은 자료를 이용하여 RVM의 취약점을 보완할 수 있다면 더 나은 성능의 향상을 기대해 볼 수 있을 것이다.

서지기타정보

서지기타정보
청구기호	{MMA 07010
형태사항	vi, 30 p. : 삽화 ; 26 cm
언어	영어
일반주기	저자명의 한글표기 : 조수진 지도교수의 영문표기 : Rhee-Man Kil 지도교수의 한글표기 : 길이만
학위논문	학위논문(석사) - 한국과학기술원 : 응용수학전공,
서지주기	Includes reference

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서