서지주요정보
Design and implementation of a community-based cluster crawler using the link structure and text information of hyperlinks = 하이퍼링크의 링크 구조와 텍스트 정보를 이용한 커뮤니티 기반의 클러스터 크롤러의 설계 및 구현
서명 / 저자 Design and implementation of a community-based cluster crawler using the link structure and text information of hyperlinks = 하이퍼링크의 링크 구조와 텍스트 정보를 이용한 커뮤니티 기반의 클러스터 크롤러의 설계 및 구현 / Ravshan Khamidov.
저자명 Khamidov, Ravshan
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018720

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 07047

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Community-limited search is a technique for improving the quality of search output by limiting the search within a specified community. A community in this thesis refers to a collection of semantically-related web pages. There have been few techniques proposed for finding such communities. The incremental cluster crawler, proposed by Kim, finds communities incrementally using the link structure of web pages crawled. This crawler, however, has some drawbacks. For instance, it does not consider the text information. Moreover, seed URLs affect clustering quality because one community is created for each seed URL. In this thesis, we propose a new method for finding communities incrementally. The key idea is to use both the link structure and the text information. Specifically, it first computes the similarity based on the link structure and the text information separately, and then combines the two resulting similarity scores. To compute the similarity based on the text information, we use the text embedded in the hyperlink to a target web page instead of the text in the target web page itself. By using both the link structure and text information, the proposed method can improve the overall clustering quality. We also propose a method for merging communities to reduce the influence of seed URLs on the clustering quality. The proposed method merges communities that are created from different seed URLs by computing the similarity between communities. Experimental results show that the proposed method improves the clustering quality by up to 3 times compared with the incremental cluster crawler proposed by Kim.

제한 커뮤니티 검색은 특정한 커뮤니티로 검색을 제한함으로써 검색 결과의 품질을 향상시키는 방법이다. 본 논문에서 커뮤니티란 의미론적으로 관련된 웹 페이지의 집합을 의미한다. 점증적인(incremental) 클러스터 크롤러는 크롤링된 웹 페이지의 링크 구조를 이용하여 점증적으로 커뮤니티를 찾는다. 그러나, 이 크롤러는 몇 가지 단점이 있다. 예를 들면, 이 크롤러는 텍스트 정보를 고려하지 않는다. 또한 각 시드(seed) URL에 대하여 커뮤니티가 하나씩 생성되므로 클러스터링 품질이 시드 URL에 영향을 받는다. 본 논문에서는 커뮤니티를 점증적으로 검색하는 새로운 방법을 제안한다. 핵심 아이디어는 링크 구조와 텍스트 정보를 이용하는 것이다. 링크 구조와 텍스트 정보에 기반하여 유사도를 각각 계산하고, 두 결과를 결합하는 형태를 띤다. 텍스트 정보에 기반한 유사도는 링크된 웹 페이지의 텍스트 대신에 하이퍼링크에 포함된 텍스트를 사용하여 계산된다. 제안된 방법으로 클러스터링 품질이 향상되었다. 또한, 시드 URL이 클러스터링 품질에 주는 영향을 줄이기 위하여 커뮤니티를 병합하는 방법을 제안하였다. 다른 시드 URL로부터 생성된 커뮤니티의 유사도에 따라 이들을 병합하였다. 실험을 통하여 제안된 방법이 점증적인 클러스터 크롤러보다 최대 3배까지 클러스터링 품질을 향상시키는 것으로 확인되었다.

서지기타정보

서지기타정보
청구기호 {MCS 07047
형태사항 vii, 39 p. : 삽도 ; 26 cm
언어 영어
일반주기 지도교수의 영문표기 : Whang, Kyu-Young
지도교수의 한글표기 : 황규영
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 Reference : p. 37-39
주제 web crawling, web clustering, web community
웹 크롤링, 웹 클러스터링, 웹 커뮤니티
QR CODE qr code