서지주요정보
대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현 = Design and implementation of a parallel web crawler for large-scale search engines
서명 / 저자 대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현 = Design and implementation of a parallel web crawler for large-scale search engines / 신은정.
발행사항 [대전 : 한국과학기술원, 2007].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8018446

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 07028

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As the size of the web is growing explosively, search engines are becoming increasingly important as the primary means to retrieve information from the Internet. A search engine periodically downloads webpages and stores them in the database to provide readers with up-to-date search results. The web crawler is a program that downloads and stores webpages for this purpose. Large-scale search engines use parallel web crawlers to retrieve the collection of webpages maximizing the download rate. However, the service architecture or experimental analysis of parallel web crawlers has not been fully discussed in the literature. In this paper, we suggest an architecture of the parallel web crawler and discuss implementation issues in detail. The proposed parallel web crawler is based on the coordinator/agent model using multiple machines to download webpages in parallel. The coordinator/agent model consists of multiple agent machines to collect webpages and a single coordinator machine to manage them. The parallel web crawler consists of three components: a crawling module for collecting webpages, a converting module for transforming webpages into a database-friendly format, a ranking module for rating webpages based on their relative importance. We explain each component of the parallel web crawler and implementation methods in detail. Last, we conduct extensive experiments to analyze the effectiveness of the parallel web crawler. The experimental results clarify the merit of our architecture in that proposed parallel web crawler is scalable to the number of machines and the number of webpages to crawl.

웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 검색 결과를 제공하기 위해 웹 페이지를 주기적으로 수집하여 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용한 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는데 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 coordinator/agent 구조의 2-tier 모델을 사용한다. Coordinator/agent 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 agent들과 이 agent들을 관리하기 위한 하나의 coordinator로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 crawling 모듈, 수집한 웹 페이지들을 데이터베이스 로딩 포맷으로 변환하기 위한 converting 모듈, 그리고, 수집된 웹 페이지의 중요도를 계산하기 위한 ranking 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 머신 개수와 수집해야할 웹 페이지 수에 scalable함을 보였다.

서지기타정보

서지기타정보
청구기호 {MCS 07028
형태사항 vi, 35 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Eun-Jeong Shin
지도교수의 한글표기 : 황규영
지도교수의 영문표기 : Kyu-Young Whang
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 33-35
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서