Protein exposes its specific function by interaction with other proteins. Thus the function of the protein whose function is not known yet can be inferred from interacting protein because the interacting proteins may express similar functions. Protein-protein interaction occurs by physical interactions of protein domains. Therefore, the domain-domain interaction data can be used for predicting protein-protein interaction. In this paper, we select the weighted frequency scoring method for predicting domain-domain interaction and evaluate it. The domain-domain interaction is derived from established protein-protein interaction and protein-protein data. The former is taken from existing protein-protein interaction databases and the latter is obtained by applying protein sequences to a protein-domain database, Interpro. Based on the domain-domain interaction data, we develop an interaction prediction system accessible through the web. We design service to deal with bulk data at once and find out the domain interaction information of proteins, domains and sequences automatically. To unify various accession numbers in the database, a table to contain them is built for the protein and the domain respectively. The database is composed of several related tables: protein information, protein-protein interaction, protein-domain, domain-domain interaction and domain information. The services provided by the system will be useful for obtaining the outline of interactions before searching details about each item in prescreening step.
본 연구는 단백질의 구조적, 기능적 기본 단위인 도메인으로부터 단백질의 상호작용을 예측하고 이를 지원하기위한 웹 기반의 상호작용 정보검색시스템을 구축하는 기본 구조를 제시한다. 최근 수년간에 많은 박테리아와 진핵생물의 서열분석이 완성되었는데, 이들 결과로부터 생명체를 유지하는데 단순한 유전자의 염기서열에 의한 정보로는 설명할 수 없는 생명현상 들이 있다는 것이 확인되었다. 복잡한 생명현상을 설명하기 위해서 단백질의 기능에 대한 개념이 도입되었다. 생명체의 항상성을 조절하는 주요 물질은 단백질로 이것은 다른 단백질과의 상호작용에 의해서 그 기능을 나타낸다. 상호작용하는 단백질들은 같은 기능을 갖는 경향이 있다. 이 특징을 이용하여 기능이 알려져 있지 않는 단백질의 기능을 상호작용하는 단백질의 쌍으로부터 예측할 수 있다. 생물학 분야에서는 yeast two-hybrid method 같은 high-throughput 기술을 이용하여 다량의 상호작용하는 단백질의 쌍을 발견하고 있다. 그러나, 이 데이터는 한 단백질 쌍이 결합한다는 단순한 관계정보만을 가지고 있기 때문에 전체 데이터로부터 유용한 정보를 추출하기 위해서는 적절한 알고리즘과 컴퓨터 기술이 필요하다. 전체 단백질에서 결합에 관여하는 부위는 일부분으로 주로 도메인의 결합에 의해서 이루어진다. 그러므로, 이 도메인의 결합 정보를 얻는다면 단백질의 상호작용 정보를 예측할 수 있다. 단백질은 하나 이상의 도메인을 갖는다. 단백질의 상호작용은 각 단백질이 가지고 있는 도메인의 조합에 의해 생성된 도메인 쌍 중 하나의 쌍에 의해 이루어질 수 있다. 기존에 알려진 단백질 상호작용 데이터와 도메인 데이타로부터 도메인-도메인 상호작용 데이터를 유도할 수 있다. 이와 관련된 데이터베이스는 여러 공공기관이나 연구자에 의해 구축되어 세계 각지에 흩어져 있으며 서로간에 중복된 데이터를 포함하기도 하고 잘못된 데이터를 갖고 있기도 하다. 따라서, 필요한 데이터를 가져와 적절한 처리를 하여 내부 목적에 맞는 데이터를 추출하고 저장하여야 한다. 기존의 단백질과 도메인과 관련된 데이터베이스는 방대한 양의 데이터를 축적하고 있고, 이를 이용할 수 있는 도구를 개발하여 연구자에게 인터넷에 각각의 단백질이나 도메인이 관한 양질의 서비스를 제공하고 있다. 그러나, 실제 실험실에서 얻어지는 많은 데이터를 처리하기 위해서는 연구자가 각각의 데이터를 수동으로 조작하여야 하고 이 과정에서 오류가 발생할 수 있다.
본 논문에서는 단백질-단백질 상호작용을 예측할 수 있는 weighted frequency scoring method에 기존의 단백질 상호작용데이타를 적용하여 그 성능을 평가하고 이를 응용할 수 있는 시스템을 구축한다. 단백질과 도메인 관련된 데이터를 효율적으로 관리하고 증가되는 데이터를 효과적으로 수용할 수 있도록 데이터베이스를 설계한다. 또한, 대량의 데이터를 동시에 자동으로 처리할 수 있는 웹 인터페이스를 개발한다.