As the web based services is rapidly developed, attacker use web pages to insert malicious code. To detect malicious web pages, there are several detection method based on machine learning techniques. The misuse detection and anomaly detection are typical detection approaches. However, each detection method has disadvantage. The misuse detection method cannot detect unknown malicious web pages and the anomaly detection method commonly has high false positive rate. In this study, we focus on malicious web pages detection method. In particular, we try to detect not only the known malicious web pages, but new and un-seen malicious web pages as well. The proposed malicious web page detection method is hybrid method based on machine learning techniques. This hybrid method is composed of misuse detection component and anomaly detection component to solve disadvantages of both detection methods. The misuse detection approach is good for detecting known attacks and the anomaly detection approach is good for detecting new types of malicious web pages.
In the experiment results, the suggested detection method shows a significant improvement detection rate while it has a relatively high false positive late compared to the single misuse detection and single anomaly detection. This result is caused by the increment of input data similarity in the anomaly detection component.
웹 기반의 서비스들이 발전함에 따라, 사이버 공격자들은 악성코드를 웹페이지에 삽입하여 유포하는 방법의 공격을 시도하고 있다. 악성 웹페이지를 탐지하기 위해서 기계 학습 기법을 사용한 탐지 방법들이 제안되어져 오고 있으며, 그 중 오용 탐지와 이상 탐지 기법, 이 두가지가 대표적인 접근 방법이라 할 수 있다. 그러나 이 두 가지 탐지 기법은 각각 장단점을 가지고 있다. 오용 탐지 방법은 잘 알려진 패턴의 악성 웹페이지를 탐지하는 성능은 뛰어나지만 새로운 패턴의 악성 웹페이지를 탐지하지 못하는 특성을 가지고 있으며 이상 탐지 방법은 새로운 유형의 악성 웹페이지를 탐지할 수 있지만, 정상 웹페이지를 악성 웹페이지로 잘못 분류하는 오탐률이 높다. 두 기법의 단점을 보완하기 위해서, 본 연구에서는 악성 웹페이지를 탐지하는 기법으로 기계 학습 기반의 이상탐지와 오용 탐지 기법을 혼합하여 잘 알려진 패턴의 악성 웹페이지를 탐지하는 성능을 높이면서 새로운 유형의 악성 웹페이지도 탐지하는 방법을 제안하고자 한다. 제안된 혼합 탐지 방법에서는 오용 탐지 기법으로 먼저 알고 있는 유형의 악성 웹페이지를 분류한 후, 나머지 분류되지 않은 웹페이지에서 이상탐지로 기법으로 새로운 유형의 악성 웹페이지를 탐지한다.
제안한 악성 웹페이지 탐지 방법의 성능을 실험을 통해 확인한 결과, 기존의 오용 탐지 또는 이상 탐지 기법만 적용하였을 때보다 비교적 높은 오탐률을 보였지만 탐지율 측면에서는 월등히 높은 성능을 가지고 있음을 확인할 수 있었다. 비교적 높은 오탐률의 원인은 두 번의 분류를 거치면서 입력 데이터의 유사성의 증가로 인해 정상 웹페이지가 악성 웹페이지로 분류되는 오탐률이 기존의 방법보다 증가한 것으로 보인다.