As the size of the time-series data increases, explaining large number of analyses becomes a critical issue. Interpreting time-series data with statistical summaries does not reflect the overall direction or the relationships between different time stamps in the time-series data. Visualizing multiple time-series data simultaneously also makes going through all possible time-series is still overwhelming for analysts. Machine learning models are effective in condensing information and have recently become more explainable. We utilize model explainability techniques to explain data analyses at a high level. Our approach is different than the traditional machine learning process where instead of making predictions on test data, we go back to the training data to understand it better by condensing the information in an explainable model.
We propose a hybrid method that combines machine learning explainability with conventional data mining techniques. One problem is that, clustering similar time-series trends does not consider the explainability of the machine learning model. We apply state-of-the-art multi-objective clustering techniques to identify cohesive and explainable clusters. We demonstrate that pareto-based clustering techniques generate the most diverse cluster sets. We analyze the decision trees to identify the demographics that corresponds to each cluster.
시계열 데이터가 커질수록 모든 시계열 데이터에 대한 분석을 진행하기 여려워진다. 통계적 유의성을 기반으로 시계열 데이터를 설명할 경우 시간에 따른 데이터의 추세나 데이터간의 연관성을 반영하지 않는다. 다수의 시계열 데이터를 동시에 시각화 할 경우 데이터 분석가에게 너무 많은 양의 정보를 제공하여 분석이 어려워진다. 기계학습 모델은 정보를 응축할 수 있으며 다양한 연구가 이루어지면서 설명가능한 모델들이 개발되었다. 이 연구에서는 설명가능한 기계학습 기법들을 적용하여 사람이 이해 가능한 설명을 생성한다. 이 기법은 실험 데이터에서 머신 러닝의 성능을 높이는 기존의 목표와 다르게 학습 데이터에서의 예측을 통해 데이터를 이해한다는 점에서 기존의 머신 러닝 학습 기법과 차이가 있다.
기존의 설명 가능한 머신 러닝 학습 기법과 데이터마이닝 기법을 융합하여 데이터를 설명한다. 시계열 데이터로만 클러스터링을 진행할 경우 설명 가능한 머신 러닝 모델의 성능을 고려하지 않는다. 널리 사용되고 있는 다중 목적 클러스터링을 이용하여 응집성이 높으면서 설명가능한 클러스터를 찾아냈다. 파레토 방식을 이용하여 클러스터링을 했을 때 가장 다양한 클러스터가 생성되었다. 결정 트리를 분석하여 각 클러스터가 어떤 인구통계적 특성을 가지는지 파악한다.