Since its inception in the 1980s, malware has continuously evolved in order to infect a greater number of victims and earn more revenue. And recent malware often contains diverse strategies and sophisticated functionalities, targeting almost all business areas. To catch up with these up-to-date malware threats, we need a comprehensive study on the currently active malware dataset, excluding the deprecated malware samples from previous attacks. To this end, we utilize Cyber Threat Intelligence sharing platforms to collect malicious/suspicious malware distribution URLs. Based on the real-time malware intelligence, we collected a large-scale live malware dataset downloaded directly from the web for more than 270 days.
In this work, we systematically analyze malware distribution networks' behaviors and characteristics and finally comprehend how we can effectively prevent/hinder malware distributions. The result of our large-scale study shows a clear trend in the current malware landscape. (i) we found that most malware is not newly invented and produced by modifying some existing malware. (ii) we identified four popular malware families, which consist of 43\% of malicious samples. (iii) we identified the server-side malware variant generation patterns through the byte-level similarity result. We also suggest a novel clustering approach to group similar malware variants, reducing future malware analysis burden.
악성코드는 더 많은 수의 사용자를 감염시키고 더 많은 이익을 얻기 위해 계속해서 진화하고 있다. 또한 최신 악성코드들은 다양한 전략들과 매우 복잡한 기능들을 포함하고 있으며, 거의 모든 분야에 공격을 수행하고 있다. 최근 배포되고 있는 이러한 악성코드의 트렌드를 이해하기 위해서는 활동하지 않는 악성코드를 제외한 현재 활동 중인 악성코드에 집중해서 분석할 필요가 있다. 이를 위하여, 본 연구에서는 사이버 위협 인텔리전스 공유 플랫폼을 활용하여 악성/의심 악성코드 배포 URL을 수집하였다. 또한, 수집한 실시간 악성코드 정보를 활용하여 현재 활동 중인 대규모의 악성코드의 데이터 셋을 웹에서 직접 약 270일간 수집하였다.
이 연구에서는, 악성코드 배포 네트워크의 행동과 특징들을 종합적으로 분석하고 현재 일어나고 있는 악성코드 현황에 대한 명확한 트렌드를 이해한다. 이 연구를 통해 밝혀낸 최근의 악성코드 위협의 특징은 (i) 대부분의 악성코드가 새롭게 개발되기보다는 기존의 악성코드를 변형하여 작성되며, (ii) 4개의 주요한 악성코드 패밀리가 총 악성코드의 43\%에 해당하는 등 악성코드 패밀리의 분포가 집중되어 있고, (iii) 파일의 바이트 레벨 유사도를 기반으로 서버 측에서 일어나는 악성코드 변종 생성의 패턴을 알아낼 수 있었다. 또한, 이 연구에서는 악성코드 클러스터링을 통해 악성코드들을 군집화하고 비슷한 악성코드를 분석하는 시간을 줄일 수 있는 방법론을 제시한다.