It is common to handle large data containing more than 100 variables in the real world like biological analysis or social statistical analysis. However, handling 100 variables at once is often impossible without the super-computer. It takes very long time to compute and build its model at once although using the super-computer. One of the good solutions is a tree-structured approach. This approach can analyze regardless of dimensionality and the sample size. Specially, the CART(classification and regression trees), statistical tree regression algorithm, gives users many options for users as well as useful results in detail. We have to pay attention to the variable importance in many cases, which the CART offers, because it reflects the contribution each variable makes in classifying or predicting the target variable.
When the true model is given in the form of a Bayes network, it is most desirable that the grouping is made in such a way that every variable in a subset has at least one other variable which is connected by an arrow in the Bayes network. Additionally, a data set of 50,000 cases from a Bayes network model of 100 binary variables and found the variable importance is a useful index of grouping the random variables.
의학, 교육, 생물학을 포함한 많은 산업이나 연구 분야에서 다양하게 베이즈 네트웍 모델은 사용된다. 우리가 서로 연관성이 있는 다수의 확률변수에 대한 베이즈 네트웍을 완성하려고 할때, 다루기에 적당한 크기로 변수의 전체 집합을 부분집합으로 쪼갠 후, 개개의 부분집합에 대한 결합 모델을 세우고, 그것을 토대로 전체 데이터에 대한 모델의 구조를 추측 할 수 있을 것이다.
그과정에서 가장 핵심이 되는 부분이 바로, 몇 개의 확률변수들의 부분집합으로 확률변수를 묶는 작업을 하는 것이다. 원래의 모델이 베이즈 네트웍의 형태일때, 그룹으로 묶인, 부분 집합에 속하는, 모든 변수는 적어도 한개의 변수는 베이즈 네트웍에서 화살표로 연결도록 그룹핑이 되어야 한다.
이 논문의 주된 논제는 카트의 결과가 확률변수를 그런 식으로 그룹으로 묶는 데에 유용한 측도를 포함하는지 아닌 지이다. 시뮬레이션은 변수 중요도가 변수들 사이에 연관관계를 만족할 수준으로 반영하는 지수임을 강하게 보여주었다. 변수 중요도 지수를 사용할 때, 특히, 그것의 절대적인 수치보다는 상대적인 중요도 수치가 더욱 바람직한 결과를 보였다.