Clustering is an unsupervised learning method to divide the whole data set into subgroups with specific patterns using a distance between data points. In recent years, the insurance industry has observed the high utilization of their customer data sets as they find the analytics, such as customer profiles, based on clustering can be profitable. However, an insurance data set contains very private information and the de-identification is required. Then, the shape of a data set becomes complex. Although there are some existing clustering methods applied to insurance data sets, any dominant method is yet to be seen because of the size and complex shape of this data set. Along this line of research, we propose the modularity-based mapper clustering algorithm. In our method, we focus on the structure of a data set. We generate the structure of a data set using a mapper algorithm, one type of TDA, and analyze the structure with modularity, the concept of a network analysis. Experimental results show our clustering has a better performance than other clustering algorithms in terms of the association rule mining, RFM analysis, cluster validity index, and distribution of important features. This study shows the potential of combining the TDA method and network analysis theory.
군집화란 전체 데이터를 데이터간의 거리를 고려하여 유사한 패턴을 갖는 소그룹으로 나누는 비지도 학습을 말한다. 최근, 보험산업에서는 그들의 고객 데이터를 활용하여 고객들을 군집화하고 이를 분석하는 것에 주목하고 있다. 하지만, 보험 데이터는 매우 민감한 개인정보를 포함하기 때문에 비식별화 과정이 요구되고, 이로인해 데이터의 형태가 복잡해진다. 많은 군집화 방법론이 보험 고객 데이터 분석에 쓰이고 있지만, 데이터의 크기가 크고 복잡한 형태를 가지고 있기때문에 군집화에 어려움이 있다. 이에 대해 본 연구에서는 모듈성기반 군집분석 알고리즘을 제안하였다. 제안한 알고리즘은 데이터가 갖는 구조에 초점을 맞췄으며, 메퍼 알고리즘을 통해 데이터의 구조를 만들어내고, 모듈성 측면에서 해당 구조를 분석하였다. 본 연구에서 제안한 방법으로 실제 데이터를 이용해 군집을 만들어본 결과, 각 군집들은 연관법칙, RFM score, 군집 유효성 지수, 군집 간 특성비교 측면에서 기존 군집화 알고리즘에 비해 뛰어난 성과를 보여주었다. 이는 위상학적 데이터 분석 알고리즘과 네트워크 분석이론을 융합하는 것의 가능성을 보여주었다.