서지주요정보
웹 검색 시스템을 위한 자동 문서 장르 분류 = Automatic document genre classification for a web search system
서명 / 저자 웹 검색 시스템을 위한 자동 문서 장르 분류 = Automatic document genre classification for a web search system / 임철수.
발행사항 [대전 : 한국과학기술원, 2005].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8016602

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 05004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the increase of information on the Web, it is difficult to find desired information quickly out of the documents retrieved by a search engine. One way to solve this problem is to classify web documents according to various criteria. Most document classification has been focused on a subject or a topic of a document. A genre or a style is another view of a document different from a subject or a topic. The genre is also a criterion to classify documents. In this paper, we applied an automatic web document genre classification for a web search system. We propose genre categories for web documents on the basis of a previous research. Then we suggest multiple sets of features to classify genres of web documents. The basic set of features, which have been proposed in the previous studies, is acquired from the textual properties of documents, such as the number of sentences, the frequency of a certain word, etc. However, web documents are different from textual documents in that they contain URL and HTML tags within the pages. We introduce new sets of features specific to web documents, which are extracted from URL and HTML tags. A Korean web document corpus was carefully constructed to evaluate the performance of the proposed sets of features. Then we examine the results thoroughly and discuss characteristics of the set of features. The automatic web document genre classification is applied to an existing web search engine to present the genre categories of the retrieved documents to the users. Users could have another view of web documents with the genre information. The constructed corpus consists of 1,224 documents, which were classified with 16 genre categories. Through a feature selection method, we could achieve 79.4% precision of the automatic web document genre classification with the corpus. The experiments show that the features extracted from document's URL and HTML tags were appropriate for identifying the genres of documents. A user survey shows that the genre information is very useful to a web search system.

웹에서의 정보의 증가로 인하여, 검색 엔진의 검색결과 문서로부터 필요한 정보를 효율적으로 찾기가 어렵다. 이 문제를 해결하기 위한 한가지 방법은 웹 문서를 여러 가지의 기준에 따라 분류하는 것이다. 대부분의 문서 분류는 그 문서에서 다루는 내용인 주제 혹은 토픽에 초점이 맞추어져 왔다. 이 논문에서는, 웹 검색 시스템의 검색 결과 문서에 자동 문서 장르 분류를 적용한다. 기존 연구를 토대로 웹 문서를 위한 장르의 분류를 제안한다. 그리고 웹 문서의 장르를 분류하기 위한 복수 개의 웹 문서 자질 집합을 제안한다. 이전의 연구에서 사용되었던 문장의 개수, 특정 어휘의 출현 회수 등과 같은 일반 문서의 특징을 나타내는 기본적인 자질 집합은 문서의 텍스트 부분에서 추출한다. 그러나, 웹 문서는 URL을 가지고 있으며, 문서 내에 HTML 태그를 가지고 있는 점이 일반 문서와 다르다. 이 논문에서는 URL과 HTML 태그로부터 추출하는 웹 문서의 특징을 나타내는 새로운 자질 집합들을 소개한다. 이러한 자질들의 자질 분류 성능을 평가하기 위하여 한국어 웹 문서 말뭉치를 구축하였다. 이 말뭉치를 이용하여 자질 집합들을 특성을 실험을 통해 면밀히 검토한다. 사용자에게 검색된 문서의 장르 정보를 제공하기 위하여 현재 서비스 중인 웹 검색 시스템에 자동 문서 장르 분류를 적용하였다. 사용자에게 제공된 장르 정보로 사용자는 웹 문서에 대한 새로운 관점을 가질 수 있었다. 구축된 말뭉치는 1,224개의 웹 문서로 이루어졌으며, 이 문서들은 16개의 세부 장르로 분류되었다. 자질 선택 방법을 이용하여 적합한 자질을 선택함으로써, 말뭉치에 대해 79.4%의 정확률로 자동 웹 문서 장르 분류를 했다. 실험 결과, 웹 문서의 URL과 HTML 태그로부터 추출한 자질들이 문서의 장르를 구분하는데 적절한 것으로 나타났다. 사용자 설문 조사 결과 장르 정보는 웹 검색 시스템에 유용한 것으로 밝혀졌다.

서지기타정보

서지기타정보
청구기호 {DCS 05004
형태사항 ix, 103 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Chul-Su Lim
지도교수의 한글표기 : 최기선
지도교수의 영문표기 : Key-Sun Choi
수록잡지명 : "Multiple sets of features for automatic genre classification of web documents". Information processing and management
학위논문 학위논문(박사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 96-103
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서