As the volume of information available on the Internet and corporate intranets continues to increase, there is a growing need for the text categorization in knowledge portal helping people better find, filter, and manage these resources. But the conventional text categorization has some limitation. First of all, it is hard to keep paces with Interest of experts changed dynamically as time goes by. Second, the keyword-based method provokes problems such as very high dimensionality in the documents and sparsely resided feature space, gap between the unrestricted vocabularies of documents and the restricted vocabularies of indexing categories, and computational Complexity.
In this thesis, to overcome these limitations, new text categorization method using reference information is presented. In science and research domains, most documents have reference information that contains a list of related documents and their publication information. The authors write the references that are mostly concentrated on one or two major categories. So text categorization using reference information can reflect a list of related documents and their publication information of authors and reduce dimensionality due to sparse feature set. The performance of suggested method is verified by conducting an experiment.
인터넷과 인트라넷의 영향으로 활용 가능한 정보의 양이 증대함에 따라, 사람들이 보다 쉽고 편하게 정보를 찾고, 관리하고, 선별하기위한 문서 분류 방안이 지식포탈 시스템에서 필요하게 되었다.
그러나, 기존의 먼저 분류 시스템에는 이러한 문제를 해결하기 위한 한계가 있다. 먼저, 전문가들이 시간이 지남에 따라 주된 관심사가 변한다는 것을 반영하지 못하고 있다. 두 번째로, 키워드에 의한 추출방식은 가지는 문제점으로, 의미론적 모호성, 문서벡터와 카테고리 벡터간의 의미상의 차이점, 계산상의 복잡성 등이 해결하지 못하고 있다.
본 논문에서 이러한 문제점을 극복하고자, 인용정보를 이용한 새로운 자동 문서 분류 추출 방법을 제시하고자 한다. 대부분의 문서에는 인용정보가 있고, 이러한 인용정보는 작가들의 관련 정보들을 반영하는 것이다. 작가들은 대부분 가장 관심이 있는 분야에 문서들을 인용하고 있다. 또한 인용 정보를 사용할 경우, 키워드 방식보다 차원이 적으므로, 시간상의 복잡성을 줄일 수 있다.