서지주요정보
Utilizing non-local information to large-scale hierarchical text classification = 비국소적 정보를 이용한 대규모 계층적 문서 분류
서명 / 저자 Utilizing non-local information to large-scale hierarchical text classification = 비국소적 정보를 이용한 대규모 계층적 문서 분류 / Heung-Seon Oh.
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026085

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 14009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Hierarchical text classification to a web taxonomy is challenging because it is a very large-scale problem with hundreds of thousand categories and associated documents. Furthermore, the conceptual levels and training data availabilities of categories vary widely. Compared to the previous work solely relying on machine learning, a narrow-down approach is the state-of-the-art that utilizes a search engine for generating candidates from the taxonomy and builds a classifier for the final category selection. However, we observed the previous work just focusing on local information associated with candidate categories to train a classifier. In this thesis, we take the same approach but address the issue of using non-local information, i.e. global and path information, to improve the effectiveness of classification. To this end, this thesis proposes methods using non-local information based on statistical language modeling framework which is well-developed in information retrieval area by understanding the necessity of non-local information. For evaluation, we constructed a document collection from web pages in the Open Directory Project (ODP). A series of exhaustive experiments and their results show the superiority of our methods and reveal the role of non-local information in hierarchical text classification.

웹 텍사노미 (Web taxonomy)는 수 십만 개의 카테고리와 몇 백만 개의 문서를 가지고 있고 또한 카테고리(category)들의 개념 수준이 상이하게 다르고 학습 데이터의 양이 카테고리 마다 다르므로 이를 이용한 계층적 문서 분류(hierarchical text classification)는 주목 받고 있는 연구 분야이다. 기존의 연구에서는 기계 학습(machine learning)에만 의존하여 계층적 문서 분류를 처리하려고 했으나 최근에 연구에서는 검색 엔진(search engine)을 이용하여 대상 카테고리를 선정하고 이들을 대상으로만 분류기(classifier)를 만들어 최종적인 카테고리를 선택하였다. 그러나 이 연구에서는 카테고리와 관련이 있는 국소적인 정보(local information)만을 이용해서 분류기를 생성하였다. 본 연구에서는 기존 연구의 동향을 따르되 그 한계점을 극복하기 위해서 국소적인 정보 이외에 비국소적인 정보 (non-local information)인 광역정보(global information)와 길정보(path information)를 이용하여 분류의 성능을 높이고자 한다. 이를 위해서 본 연구에서는 확률 언어 모델링(statistical language modeling)에 기반하여 비국소적인 정보를 이용하는 방법들을 제안한다. 또한 평가를 위해서는 Open Directory Project (ODP)로부터 웹 문서들을 수집하여 테스트 콜렉션(test collection)을 구축하였다. 본 연구는 많은 실험을 통해서 제안하는 방법들의 우수성을 입증하고 비국소적인 정보가 계층적 문서 분류에서 하는 역할을 분석하였다.

서지기타정보

서지기타정보
청구기호 {DCS 14009
형태사항 vi, 86 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 오흥선
지도교수의 영문표기 : Sung-Hyon Myaeng
지도교수의 한글표기 : 맹성현
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 76-82
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서