Log-linear modelling for data from a bayesian network model = 베이지안 네트워크모형에서 얻은 자료의 로그선형모형 개발
서명 / 저자 Log-linear modelling for data from a bayesian network model = 베이지안 네트워크모형에서 얻은 자료의 로그선형모형 개발 / Eun-Gyoung Kim.
These days Bayesian network models are popular with the AI, medicine, biology, education and statistics communities. They have complicate expression of independence which takes into account the directionality of the arcs. By contrast, graphical models are graphs in which nodes represent random variables, and the lack of arcs represent conditional independence assumption. graphical log-linear models have a simple definition of independence: two(sets of) nodes A and B are conditionally independent given a third set, C, if all paths between the nodes in A and B are separated by a node in C. We want to change a Bayesian network model for a set of a large number of random variables that are assumed to be causally related into a marginal log-linear model. Dealing with the whole data set that have large number of variables would be time consuming and lead us to models that are far away from the true model. When we build a model based on a data set for a large set of random variables, it is desirable to divide the whole set of variables into several subsets of variables of manageable sizes. It is very important to arrange the variables into subgroups so that variables are associated among themselves within subgroups than between subgroups. Classification and regression tree algorithm is useful for grouping. Once we choose the subgroups of random variables, we apply log-linear modelling to individual groups and obtain graphical log-linear models whose model structures are representable via graphs of vertices and edges. We find particular types of graph separators called prime separators which are defined as a graph separator which separates cliques or irreducible cycles. The prime separators have a good property that they remain as prime separators both in a graphical model and its marginal model. This property is used in combining marginal models of a graphical log-linear model. Finally we compare the combined model with the Bayesian network model, through a simulated experiment, and show that the combined model covers the Bayesian network model.

오늘날 베이지안 네트워크 모델은 AI, 의료, 생물, 교육 등 다양한 분야에서 널리 사용되고 있다. 그러나 방향성을 가진 베이지안 네트워크는 독립성 표현이 복잡하다는 단점이 있다. 반면 그래프 로그선형모형은 이를 간단 명료하게 표현할 수 있다. 베이지안 네트워크 모델을 그래프 로그선형모형으로 변환하여 모델링을 수행하면 복잡성을 해결할 수 있다. 이 논문에서는 베이지안 네트워크 모델을 그래프 로그선형모형으로 모델링 하여 두 모델간의 유사점과 차이점을 비교하였다. 그래프 로그 선형모형을 모델링하는 과정에서 거대모형의 특성을 빠르게 파악하여 효율적으로 구조화 할 수 있도록 CART 알고리즘을 이용하였다. CART 알고리즘은 독립변수에 영향을 미치는 주요 종속 변수를 중요도 순서에 따라 알려주므로 거대 모형을 합리적으로 부분 별로 군집화 할 수 있다. 군집화를 통하여 거대 모형 분석의 효율성 증대뿐만 아니라 변수의 증가에 따른 분할표 내의 관측값이 없는 셀에 대한 합리적 처리를 통해 모형의 신뢰성을 증가시킬 수 있다. CART를 통해 얻은 각각의 군집을 로그 선형 분석을 통해 주변 그래프 모형을 얻고, 이를 결합하여 거대 모형을 개발하는 방법을 제시하였다. 이렇게 얻어진 그래프 로그 선형 모형이 베이지안 네트워크 모델이 가지고 있는 정보를 손실하지 않고 유지하고 있는 부분과 손실된 부분, 그리고 원래 모델에서는 없었지만 로그 선형 모형 과정에서 추가된 정보의 여부를 살펴보기 위하여 실제 자료에 제시된 방법을 적용을 시켰다. 이를 통하여 이 논문에서 제시된 방법의 효율성과 문제점, 앞으로 수행해야 할 심층적 연구방향을 제안하였다.


