Mixed data refer to tabular data which include both numerical and categorical features and they have become prevalent in various fields such as finance and medical studies. In our study, we propose a simple yet powerful sparse clustering technique for mixed data. Our approach combines model-based Gaussian-multinomial mixture model with partitioning method, leveraging the advantages of both. Also, we utilize the difference in log-likelihoods between cluster assignment and non-assignment of each feature to induce sparsity and feature selection tailored to the practitioner's needs. The proposed method performs under with high-dimensional settings where the number of features exceeds the number of observations, due to its straightforward structure and capacity to induce sparsity. Furthermore, our model can select different features for each cluster and offers feature importance rankings which greatly enhances interpretability of the clustering result compared to other sparse clustering techniques for mixed data. We demonstrate our method's performance using synthetic and real data and observe that it has competitive performance compared to some state-of-the-art mixed data clustering methods.
최근 금융, 의학 등과 같은 분야에서 수치형 변수와 범주형 변수를 모두 가지고 있는 혼합형 데이터가 많이 이용되고 있다. 이에, 본 연구에서는 혼합형 데이터에 대한 간단하면서도 강력한 희소 군집화 기법을 제시하고자 한다. 제안된 방법은 모형기반 군집방법인 가우시안-다항 혼합모형과 분할기법을 결합하여 두 접근 방법의 장점을 모두 가지고 있으며, 각 변수별 군집화 전과 후의 로그-우도의 차이를 기반으로 이용자가 원하는 수준의 변수 선택이 가능하다. 간단한 구조와 변수 선택 기법으로 인해 본 방법은 변수의 수가 관측치의 수보다 많은 고차원 데이터에 대해서도 잘 작동하는 것을 확인하였다. 더욱이, 본 방법은 각 군집별로 다른 변수를 선택할 수 있으며 변수간의 중요도 순위를 확인할 수 있는데, 이는 기존의 혼합형 데이터에 대한 희소 군집화 방법들에 비해 해석력이 크게 향상된 것이다. 마지막으로, 시뮬레이션과 실제 데이터를 통해 다른 최신 군집화 방법들에 비해 본 방법이 좋은 성능을 보임을 확인하였다.