To combat rapidly evolving cyber threats, security practitioners are beginning to pay attention to cyber threat intelligence (CTI). In this regard, many existing studies present novel CTI systems that collect CTI data from publicly available sources and utilize them for threat analysis and detection. However, none of them validate that the CTI data they collect is consistent. Besides, since they cover limited threat information, they cannot provide a comprehensive view of cyber threats. Therefore, this dissertation addresses the problems of existing CTI systems through the following two research topics: (1) inconsistency check of CTI data and (2) the collection and utilization of various types of CTI data. We first propose an inconsistency checking system to identify the presence of inconsistencies among the CTI data addressed in publicly available sources and identify the degree and characteristics of conflicting CTI data. Next, we present a novel CTI system based on a pre-trained language model to collect various types of CTI data. We believe that the systems proposed in this dissertation will help security practitioners to analyze and detect cyber threats more clearly and reliably.
빠르게 진화하는 사이버 위협에 대응하기 위해, 보안 전문가들이 사이버 위협 인텔리전스(CTI)에 관심을 가지기 시작했다. 이와 관련하여, 많은 선행 연구들이 무료로 이용 가능한 출처들로부터 CTI 데이터를 수집하고 이들을 위협 분석과 탐지에 활용하는 새로운 CTI 시스템들을 제시하였다. 그러나, 그들 아무도 그들이 수집하는 CTI 데이터가 일관성을 가지는 지 검증하지 않는다. 또한, 그들은 일부 한정된 위협 정보만을 다루기 때문에, 사이버 위협에 대한 포괄적인 시각을 제공하지 못한다. 따라서, 본 학위논문은 다음 두 가지 연구 주제들을 통해 기존 CTI 시스템들의 문제점들을 개선한다: (1) CTI 데이터의 비일관성 검사, (2) 다양한 타입의 CTI 데이터의 수집과 활용. 우리는 먼저 공공의 위협 분석 자료들에서 다루어지는 CTI 데이터들 사이의 비일관성의 존재를 파악하기 위한 검사 시스템을 제시하고, 이를 통해 모순되는 CTI 데이터의 정도와 특징을 파악한다. 이어서, 우리는 다양한 타입의 CTI 데이터를 수집하기 위해 사전 학습된 언어 모델을 기반으로 한 새로운 CTI 시스템을 제시한다. 우리는 본 학위 논문에서 제시한 시스템들이 보안 전문가들이 사이버 위협을 보다 분명하고 신뢰도 있게 분석하고 탐지하는데 도움이 될 것이라고 믿는다.