서지주요정보
복합특성벡터를 이용한 웹 로봇 실시간 탐지 연구 = Web robot detection in real-time using a composite attribute vector
서명 / 저자 복합특성벡터를 이용한 웹 로봇 실시간 탐지 연구 = Web robot detection in real-time using a composite attribute vector / 이동건.
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020131

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 09016

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, web robot detection is one of the most interested topics in the web business area. Web robot has bad influences upon the web cache for effective web service, the analysis of customer preference, and the resource management related to network traffic. Web robot also causes the drain of information to be secured and infringes the copyright. Despite the potential significance of these issues, there has been relative little research about web robot detection. Because it is hard to get large and confident web logs, and web robot itself has various pattern differences. In the previous researches, there are limitations about the confidence from small data collected at a university, the detection of various web robot, and the detection in real-time. This research proposes novel approach to detect web robot on real-time using a massive and confident web log from commercial web site (www.microsoft.com). First, we have selected 7-attribute which shows differences between normal user and web robot. Then, a Composite Attribute Vector(CAV) which is proposed in this research collects the degree of divergences from these attributes and integrates into a mathematical vector format. CAV indicates its integrated result with angle and length in polar coordinate system of a 2-dimension euclidean plane. The angle of CAV determines whether an audit session is web robot or normal user, and the length of CAV represents the confidence of its detection result. In our experiments, CAV could treat over 50,000 HTTP requests per second, and it spent only 200MB of a memory space in operating on the massive web log of www.microsoft.com. Most of the web robot were detected only after 13 HTTP requests, and false positive and false negative were only 2.5% and 4.5%, respectively.

웹 비즈니스에서 웹 로봇을 탐지하는 것은 최근에 가장 주목 받고 있는 이슈 중의 하나이다. 웹 로봇이 생성한 트래픽은 안정적인 서비스를 위한 웹 캐시, 사용자 패턴 분석, 네트워크 트래픽 관리에 걸림돌이 된다. 또한, 웹 로봇은 보안이 유지되어야 하는 정보의 유출과 저작권 침해라는 문제를 야기하기도 한다. 이러한 문제에도 불구하고 테스트 데이터 셋의 확보의 어려움과 웹 로봇이 보이는 행동 패턴이 다양성 때문에 웹 로봇 탐지에 대한 연구가 많이 이뤄지지 못했다. 기존의 연구에서는 소규모 데이터에서 오는 신뢰도 문제가 있었으며, 다양한 웹 로봇 탐지와 실시간 운영의 어려움이라는 한계가 있었다. 본 연구에서는 상업용 웹 사이트인 Microsoft의 대용량 웹-로그를 이용한 실험 및 분석을 통해 다양한 종류의 웹 로봇을 실시간으로 탐지할 수 있는 효과적인 방법을 제안 한다. 웹 로봇의 특성화 연구와 세션별 분석을 바탕으로 정상 사용자와 웹 로봇을 차별화할 수 있는 7 가지의 특성을 선정하였으며, 본 연구에서 제안하는 웹 로봇 탐지 알고리즘인 복합특성벡터를 통해 이들 특성을 종합하여 나타낸다. 복합특성벡터는 2 차원-유클리드 평면상의 극좌표 계에서의 각도에 따라 정상 사용자와 웹 로봇을 결정하며, 길이에 따라 그 탐지 결과의 신뢰도를 나타낸다. 이 방법으로 실험 환경에서 초당 50,000건 이상의 요청을 처리할 수 있었으며, 메모리 공간은 Microsoft의 대용량 웹-로그에서 최대 200MB만을 필요로 하여 실시간 운영이 가능하였다. 대부분의 웹 로봇이 13회의 HTTP 요청만으로도 탐지가 조기에 이뤄졌고, 긍정 오탐이 약 2.5%, 부정 오탐이 약 4.5%로 나타났다.

서지기타정보

서지기타정보
청구기호 {MCS 09016
형태사항 vi, 72 p. : 삽화 ; 26 cm
언어 한국어
일반주기 저자명의 영문표기 : Dong-Kun Lee
지도교수의 한글표기 : 문수복
지도교수의 영문표기 : Sue-Bok Moon
학위논문 학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기 참고문헌 : p. 70-72
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서