The graphical models are used to represent the conditional independence relationship of the random variables. Especially, DAG (directed acyclic graph) is useful for expressing causal relationship between random variables. By estimating the DAG structure for the observed data, we can analyze the data more efficiently. In this paper, we propose the new method to estimate the corresponding DAG structure for given continuous type data when the structure is sparse, and we check the proposed method works well and fast to find the near-optimum model in many situation. To do this, we find sufficiently many possible candidate undirected edges, and then we give the direction for each edge. We update the structure with no directed cycle by choosing the locally best action for each candidate edge. If the structure is sparse, random forest is good to determine whether two random variables are dependent or not, and $L_1$ penalized log-likelihood can be reflected the sparsity of the graph. We could take possible candidate edges by using these techniques. To decide the locally best action, we use a score function based on MLE. But we can use another score functions and apply the same procedure as described in this paper.
그래프 모형은 다변량 자료의 변수들 사이의 상관 관계 또는 조건부 독립 관계를 표현하는데 사용이 된다. 특히 DAG (directed acyclic graph)의 경우 변수들 사이의 인과 관계를 나타낼 수 있어서 유용하다. 관찰된 자료를 가지고 인과 관계를 규명하는 것은 어려운 일이지만 DAG 구조를 학습함으로서 자료에 대한 이해를 돕고 효과적인 분석을 할 수 있다. 본 논문에서는 연속형 다변량 자료의 분석에 있어서 변수들 사이의 상관 관계가 희소한 경우에 효과적으로 적용될 수 있는 DAG 구조 학습 방법을 제시하였고 실험을 통해 잘 적용되는 것을 확인하였다. 이는 우선 방향성이 없는 후보 edge들을 선택한 후에 각 후보 edge들에 대해 특정 방향을 주거나 edge를 삭제하는 등의 세 가지 경우 중 하나를 취해주는 부분적 선택을 시행하는 것을 반복적으로 적용해나가면서 directed cycle이 없는 것을 체크해주는 방법이다. 희소 구조인 경우 랜덤 포레스트와 $L_1$ penalized log-likelihood 함수를 사용하면 후보 edge들을 더 효과적으로 택할 수 있었고, score function을 도입하여 부분적 최적화를 반복하는 것이 복잡도를 줄이면서 더 좋은 근사적인 최적해를 찾아주는 것을 실험적으로 확인하였다.