서지주요정보
대용량 웹 서비스 상의 웹 로봇 분류를 위한 특성화 연구 = Metrics for classification of web robots: an empirical study based on over one billion requests
서명 / 저자 대용량 웹 서비스 상의 웹 로봇 분류를 위한 특성화 연구 = Metrics for classification of web robots: an empirical study based on over one billion requests / 이준섭.
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019610

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 08042

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

While there have been many studies on detection and classification techniques of web robots, they have been focused primarily on crawlers. Many experiments have been conducted using relatively small data collected at a university. Most importantly, few studies have investigated how different types of web robots can be detected and classified. In this paper, we analyzed more than one billion requests made at www.microsoft.com. Data was made anonymous while preserving essential characteristics. We have developed metrics that are useful in detecting and classifying various web robots including crawlers, link checkers, icon crawlers, etc. Features related to workload characteristics as well as resource types are used to classify web robots. Web robot behavior was clearly different from typical interactive users, and different types of web robots also exhibited different characteristics. Classification metrics are divided into five groups, and effectiveness of each group in classification has been determined. Polar diagram scheme arrange metrics in the decreasing order of effectiveness in the clockwise direction. One can use these features to classify likely identify of unknown web robots, and organizations can develop appropriate measures to deal with them.

웹 환경이 급속하게 발전함에 따라, 다양한 목적의 웹 로봇이 등장하였고 웹 로봇의 특성을 분석하고 탐지를 위한 연구가 다각도로 수행되었다. 하지만 대부분의 연구는 상대적으로 소규모이거나 제한된 환경을 대상으로 수행되었거나, 또는 작은 데이터를 이용하여 수행되었다는 한계를 가졌다. 무엇보다 중요한 이전 연구의 한계점은, 아주 적은 연구만이 서로 다른 로봇 유형들간의 분류 및 특성화 분석을 수행 하였다는 것이다. 본 논문에서는 다양한 유형의 웹 로봇의 탐지 및 분류를 위하여 마이크로소프트사의 웹 서버에서 수집된 250GB분량의 10억 건의 접근 데이터를 사용, 기존에 제안된 로봇의 특성 이외에도 웹 로봇 워크로드 특성, 접근 자원 유형 및 접근 방법에 대한 특성 평가지표를 바탕으로 특성화 메트릭을 제안한다. 각 특성화 메트릭을 바탕으로, 각 웹 로봇의 유효 특성들을 폴라 다이어그램 스키마에 따라 하나의 비교 메트릭을 제안한다. 일반 사용자와의 특성들을 비교분석 하기 위하여 비교 메트릭은 각 유효 특성 들을 5개의 그룹으로 나누며, 분류 효율성에 따라 5개의 그룹의 우선 순위에 따라 정렬 되어 표현 되었다. 논문에서 다루는 실험은 이러한 비교 메트릭을 이용하여 마이크로소프트, 구글, 야후등의 검색엔진회사에서 사용하는 웹 로봇 이외에도 아이콘 수집기나 이미지크롤러 및 링크체커를 명확이 분류 할 수 있음을 보여 준다. 본 연구의 결과는 서로 다른 유형의 웹 로봇을 탐지 하고 그 역할에 따라 분류 하는 관련 연구에 매우 유용한 결과를 가져다 줄 것이다

서지기타정보

서지기타정보
청구기호 {MCS 08042
형태사항 iv, 25 p : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Jun-sup Lee
지도교수의 한글표기 : 한환수
지도교수의 영문표기 : Hwan-soo Han
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 24- 25
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서