Bayesian networks are a useful tool for understanding and representing knowledge structures in the research fields such as AI, medicine, biology, education, social science, business, management, etc. Its popularity comes from its high interpretability of the phenomena when they are expressed in the form of a Bayesian network. The directions of the arrows in the network indicate the relationship between the random variables, mostly interpretable as cause-effect relationship, the variable at the tail being interpreted as a cause and the one at the head as an effect.
As is common for most of modeling problems, learning the structure of a model is not easy, when a lot of variables are involved, in the context of computation time and model complexity. We propose a method of structure-learning under the assumption that the true model is a Bayesian network model. In the method, we apply a regression tree method and the entropy measure to find out how variables are related to each other. The two methods produce similar model structures as a whole, but if we combine the two results we can have an improved model structure. We applied this method to two sets of artificial data sets, one set of 20 binary variables and the other of 40 binary variables. The result strongly supported the proposed method for structure learning.
오늘날 베이지안 네트워크 모델은 AI, 의료, 생물, 교육 등 다양한 분야에서 응용력을 발휘하고 있다. 베이지안 네트워크는 이해하기가 쉽고 복잡한 현상을 원인-결과의 관계로 표현해 준다는 장점을 가지고 있다.
서로 연관성이 있는 여러개의 확률변수에 대한 베이지안 네트워크를 완성하려면, 다루기에 적당한 크기로 변수의 전체 집합을 부분집합으로 쪼갠 후, 개개의 부분집합에 대한 결합 모델을 세우고, 그것을 토대로 전체 데이터에 대한 모델의 구조를 추측할 수 있을 것이다.
이 논문의 첫 번째 이슈는, 몇 개의 확률변수들의 부분집합으로 확률변수를 묶는 작업에 대한 것이다. 변수들을 묶는 방법으로 회귀나무방법과 정보 이론에 기반을 둔 엔트로피 방법을 사용하여 변수를 묶었다. 시뮬레이션 데이터를 이용한 실험에서 엔트로피 방법이 더 좋은 성능을 보였다.
이 논문의 두 번째 이슈는, 베이지안 네트워크 모델로부터 회귀나무방법과 엔트로피방법을 이용해 선택된 확률변수들을 이용해 모형구조를 개선시키는 방법을 제안 하는 것이다.
20개와 40개의 변수들을 가지는 데이터를 바탕으로 한 실험에서 회귀나무방법과 엔트로피방법을 각각 쓰는 것 보다 같이 쓰는 것이 원래의 모럴 그래프에 더 가까운 모델 구조를 가지게 한다는 것을 알 수 있다.