During the last decade a number of coordinated security breaches happened on a global scale. Botnets represent major infrastructure for such coordinated cyber-attacks on citizens, enterprises, and governments. Botnet can be referred as a large network of compromised computers being remotely controlled. Many recent countermeasures utilize machine-learning techniques due to its adaptability and “model-free” properties. Due to high volumes of traffic, the challenge is posed by managing tradeoff between system scalability and accuracy. We propose a novel Hadoop-based P2P botnet detection and classification method solving the problem of scalability and having high accuracy. Note that proposed system can classify not only P2P botnet traffic but also traffic generated by legal P2P applications (e.g. Skype, eMule). Our system bridges the gap between state-of-the-art P2P traffic detection/classification methods and the corresponding research in distributed Big Data processing. Hadoop was chosen as main development framework for the whole system. Moreover, random forests ensemble method was employed for the categorization of the traffic. Inherent distributed characteristics of the random forests classifier add more scalability to the system.
최근 수십년간 전 세계에서 수 많은 보안 침해 사건이 발생하고 있으며, 대표적으로 봇넷과 같은 공격들은 시민 사회, 기업 및 관공서와 같은 주요 시설에 피해를 입히고 있다. 봇넷은 사전에 공격 받은 컴퓨터들이 원격으로 조작되어 구성하는 큰 규모의 네트워크로 볼 수 있다. 봇넷의 대비책으로는 일반적으로 다양한 곳에 적용 가능하면서 "model-free" 특성을 가지는 기계학습 기법을 활용한다. 그러나 네트워크 트래픽이 지나치게 많기 때문에, 기계학습을 이용한 대비책들은 확장성(scalability)과 탐지의 정확도(accuracy) 사이에 타협을 하게 된다. 본 논문에서는 높은 정확도를 갖으면서도 확장성 문제를 해결할 수 있는 새로운 하둡 기반의 P2P 봇넷 탐지 및 분류 기법을 제안하며, 본 기법은 P2P 봇넷 뿐만 아니라 일반적인 P2P 프로그램(Skype, eMule 등)이 만들어 내는 트래픽또한 분류할 수 있다. 시스템의 구성을 위해 최신 P2P 트래픽 탐지 및 분류 기법과 빅 데이터 분산 처리를 조합하였으며, 전체 시스템의 개발을 위해 하둡을, 트래픽의 분류를 위해 랜덤 포레스트 기법을 사용하였다. 이 중 랜덤 포레스트 분류 방식이 갖는 분산 처리 특성으로 인해, 시스템은 다른 기법에 비해 더욱 높은 확장성을 얻을 수 있다.