Microarray is a technique which could measure thousands of genes’ expression level simultaneously. To find the co-regulated genes in microarray data, the clustering algorithms have been applied, such as hierarchical, K-means and SOM. Numerous different clustering results have been produced. It is a big challenge for biologists to choose meaningful clusters among the huge amount of results. The quantitative measurement of clustering result is called cluster validation. The cluster validation could be divided into two methods: data-driven approach and knowledge-driven approach based on the distance measurement between genes. We propose a new information fusion based distance metrics which could combine two knowledge information: data information and prior biological knowledge. And firstly incorporating the database of interacting protein to deal with the uncertainty of prior knowledge and using the optimization methods to find the optimal parameters for information fusion equation. To check the effect of the new method, two test datasets are used for experiments. In the comparison with conventional distance measurements, the new method shows better performance.
마이크로어레이는 수 천의 유전자 발현현상을 동시에 측정할 수 있는 기술이다. 이러한 마이크로어레이 데이터에서 함께 조절되는 유전자들을 찾아내기 위해서 군집화(clustering) 알고리즘들이 사용되어왔고 대표적으로 hierachical clustering, K-means, SOM등이 있다. 이러한 군집화 방법을 통해 수 많은 군집화 결과를 얻게 되었으나, 많은 결과 가운데서 의미있는 것을 찾아내는 것이 생물학자들에게 큰 어려움이 되고 있다. 군집화 결과의 정량적인 분석을 군집화 평가(clustering validation)라고 한다. 이러한 군집화 평가는 두 가지 방법으로 나뉠 수 있는 데, 첫째 data-driven 접근법, 둘째 두 유전자 간의 거리를 바탕으로 한 knowledge-driven 접근법이다. 우리는 데이터 정보와 생물학적 지식이라는 두 가지 지식(knowledge)을 통합할 수 있는, 정보융합 기반의 거리척도를 제안하였다. 본 거리척도는 사전(prior) 지식의 불확실성을 해결키 위해 상호작용하는 단백질 데이터베이스를 통합하였고, 정보융합을 위한 최적화된 파라메터를 얻기위해 최적화 방법(optimization method)를 이용하였다. 제안된 방법의 성능을 측정하기 위해 두개의 시험 데이터가 사용되었고, 기존 방법과의 비교를 통해서 제안된 방법의 나은 성능을 확인할 수 있었다.