A new EM algorithm was proposed in Kim (2000) that is available for modelling a large recursive model of categorical variables which is too large to handle as a single model. An improvement on that algorithm is proposed in this thesis. The difference between the two algorithms is that while the marginal of a set of observed variables as obtained based on the estimates from an E-step may not be the same as the observed marginal in the former algorithm, the marginal from an E-step and the observed marginal are the same in the latter algorithm. As a consequence, the M-step in the latter algorithm becomes simpler than that in the former. This improvement still undergoes an information loss due to model-splitting. It is proved in the thesis that as we do more splitting on a model, we lose more information from data about the parameters of the model. Thus, it is strongly recommended that a model be split as little as possible for estimating parameters of the model with as much accuracy as possible.
Kim(2000)에 의해 제안되었던 EM 알고리즘은 범주형 변수의 거대 순환 모형의 모델링에는 유용하나 단일 모형으로 다루기에는 너무 크다.
이 알고리즘에 대한 개선이 본 논문에서 제안되었는데 그 차이는 다음과 같다. 전자의 알고리즘에서는 E 단계에서 추정한 관찰되어진 변수들(observed variables)의 집합의 경계(marginal)가 실제 관찰되어진 변수들의 집합의 경계와 다를수 있으나, 후자의 경우에는 일치한다. 또한 M 단계가 전자의 경우보다 간단해진다.
그러나 이러한 개선에도 불구하고 여전히 모델분할에 의한 정보손실을 겪게 된다. 우리는 모델을 분할할수록 모델의 모수에 관한 데이타로부터의 정보손실이 더 많아짐을 증명하였다. 그러므로 모델의 모수의 좀 더 정확한 추정을 위해서는 가능한 모델분할을 줄여야한다.