Clustering complex data presents significant uncertainty, particularly in cluster interpretation. In many practical scenarios, it is often desired to interpret discovered clusters in an ordered fashion. For example, in healthcare, doctors aim to categorize patients into high-, medium-, and low-risk groups. To address this challenge, we introduce “monotone clustering”, a novel method that identifies inherently ordinal clusters from high-dimensional data. The essence of monotone clustering lies in ensuring that cluster labels are monotonically related to each input variable. We utilize a generalized additive model fortified with monotone splines. Recognizing that not all input variables might influence the ordinal clusters, we incorporate a sign-coherent sparse group penalty on the spline coefficients. This approach aids in highlighting crucial variables and eliminating noise or irrelevant ones. Our algorithm iteratively refines nonlinear monotone functions for the generalized additive model based on existing ordinal clusters and revises cluster assignments using model predictions. The effectiveness and superiority of our monotone clustering approach are substantiated through simulation studies and two real-world examples.
복잡한 데이터의 군집분석은 불확실성이 있으며, 특히 군집의 해석에 있어서 상당한 불확실성이 존재한다. 많은 실제 사례에서 발견된 군집을 순서대로 해석하는 것이 바람직하다. 예를 들어 의료 분야에서 의사들은 환자를 고위험, 중위험 및 저위험 그룹으로 분류하고자 한다. 이러한 문제를 해결하기 위해 우리는 ”단조 군집화”라는 새로운 방법을 소개한다. 이 방법은 데이터에서 본질적으로 순서가 있는 군집 (순서 군집) 을 식별한다. 단조 군집화의 본질은 군집 레이블이 각 입력 변수와 단조적으로 관력된도록 하는 데에 있다. 우리는 단조 스플라인을 활용한 일반화가법모형을 사용한다. 모든 입력 변수가 순서 군집에 영향을 미치지 않을 수 있기에, 스플라이 계수에 일관된 부호의 희소 그룹 규제 (sign-coherent sparse group penalty)를 더해준다. 이 방법은 중요한 변수를 선택하고 군집과 관련없는 변수들을 제거하는 데 도움이 된다. 제시된 알고리즘은 주어진 순서 군집을 기반으로 일반화 가법 모형을 이용하여 각 변수의 비선형 단조 함수를 찾아 내고, 예측된 비선형 단조 함수를 기반으로 군집 할당을 수정하는 과정을 반복한다. 마지막으로 시뮬레이션 연구와 두 실제 데이터 예시를 통하여 단조 군집화 방법의 효과와 성능을 입증하였다.