As the threat of Web-based malware distribution compromising computers increases, the importance of the research on detecting malicious web pages are being emphasized. In response to such threat, various static or dynamic analysis approaches to detect malicious web pages were proposed; however the proposed static analysis approaches have low accuracy and dynamic analysis approaches are too slow to analyze the large number of web pages. To overcome these limitations, hybrid analysis approaches, analyzing the web pages that are already classified as malicious by the static analysis, were proposed. In case of the hybrid analysis, its performance depends on the performance of the static analysis; hence the role of static analysis is more important than dynamic analysis despite of its drawback such as its low accuracy.
The modeling based on documents and languages, such as HTML document and JavaScript language, is the main cause of the low accuracy in static analysis. I propose a novel approach to statically detect malicious web pages based on attack features by machine learning. The classifier to detect malicious web pages is composed of three sub classifiers. Each sub classifier is designed to determine whether a web page contains obfuscation, exploit code, or redirection features. The result of the experiment shows that malicious web pages can be quickly detected using the classifier based on attack features with low false positive rate.
웹을 통한 악성코드 유포의 위협이 증가함으로써 악성 웹 페이지 탐지에 중요성이 강조되고 있다. 이러한 위협에 대응하기 위해, 정적 분석 방법과 동적 분석 방법을 통해 악성 웹 페이지를 탐지하였다. 하지만 정적 분석 방법은 정확도가 떨어지는 한계가 있으며, 동적 분석 방법은 속도가 느려 대량의 웹을 검사할 수 없었다. 이러한 한계를 극복하기 위해 정적 분석 방법을 통해 악성으로 판단된 페이지에 대하여 동적 분석을 통하여 웹 페이지의 악성 여부를 판단하는 하이브리드 분석 방법이 제안되었다. 하이브리드 분석 방법에서도 정적 분석 방법의 성능에 따라 전체 시스템의 성능이 크게 결정된다.
기존 정적 분석 방법들은 HTML과 JavaScript와 같은 언어적 관점에서 모델링하였기 때문에 정확도가 떨어지는 문제점이 존재하였다. 따라서 본 연구에서는 정적으로 웹 페이지를 분석하여 특징을 추출하고, 실제 공격 특징에 따라 난독화 분류기, 공격 분류기, 이동 및 확인 분류기의 세 가지 분류기를 구성하였다. 본 연구는 낮은 미탐률과 빠른 속도의 악성 웹 페이지 탐지 방법을 제안하였다.