One of the key mechanisms of biological functions is protein domain-domain interactions. Domain interactions and hence domain interfaces play a key role in the elucidation of cellular functions. Therefore, structure-based drug discovery will increasingly rely on a comprehensive understanding of domain interactions. For a comprehensive understanding of domain-domain interactions, large-scale geometric analyses on protein domain interfaces are crucial. Here, we propose three geometric analysis systems which address the problems of defining interface surfaces between protein domains, comparing and classifying interface structures, and predicting protein domain interfaces on newly discovered protein structures.
To define interface surfaces accurately, we propose a watertight boundary detection algorithm that detects the watertight boundary on the interface surfaces between two domains defined by a Voronoi diagram. Using the proposed method, over 47,000 interface surfaces are extracted and stored to the InterPare database. Analysis of the interface surface dataset determines that the minimum interface area is 300 $Å^2$. In addition, we present an interface comparison method. Our comparison scheme using spin-image matching works well. And several 3D surface similarity measures are used for quantitative comparison of interface surfaces. By exhaustive N-by-N interface comparisons and hierarchical clustering analysis, we subclassed 10 sample SCOP families into 500 subfamilies. We found that in the subfamily not only interface structures but also interaction patterns are conserved over domains. We conclude by proposing a novel domain interface prediction method on newly discovered protein structures. Furthermore, prototype implementation using non-manifold spin-image matching predicts domain interfaces well using our unique interface prediction mechanism.
단백질은 생명체의 세포 기능 (cellular function) 을 조절하는 가장 기본적인 분자단위이며 하나의 단백질은 1개 또는 여러 개의 도메인으로 구성되어있다. 인간게놈프로젝트 (Human Genome Project) 이후에 연구자들은 유전자 (gene) 의 개수보다 생물학적인 기능 (biological function) 의 개수가 현저히 많다는 것을 알게 되었는데 이는 단백질 도메인 여러 개가 서로 상호작용하면서 하나의 기능을 수행하기 때문이다. 이러한 이유로 생명체 기능의 원리를 규명하기 위하여 단백질 도메인 상호 작용에 대한 연구가 계속 이어지고 있다. 단백질의 3차원 구조는 단백질 도메인 간의 상호작용과 기능을 결정 짓는 가장 큰 요인인데 그 중에서도 ‘도메인 상호작용 인터페이스’는 두 개의 단백질 도메인이 직접 상호작용하는 3차원 상 구조의 일부분을 말한다. 이 같은 ‘도메인 상호작용 인터페이스’는 단백질의 다른 부분에 비해 아미노산 서열뿐 만 아니라 3차원 구조가 상대적으로 보존적이다. 이는 비정상적인 단백질 도메인 간 상호작용으로 인해 야기되는 세포의 치명적인 영향을 피하기 위한 단백질의 진화적 적응의 결과이다. 따라서 단백질 도메인 인터페이스를 고해상도, 대용량으로 찾아내고, 찾아낸 인터페이스를 구조적으로 분류하면 단백질 도메인 상호작용에 대한 더욱 정밀한 분석과 신약의 타겟을 찾아내는데 많은 도움을 줄 수 있을 것이다.
본 논문은 고해상도로 단백질 도메인 상호작용면 (Interface Surface) 을 찾아내고 (Interface Identification), 구조적으로 비교 및 분류하고 (Interface Clustering), 상호작용면이 밝혀지지 않은 새로 밝혀지거나 모델링 된 단백질에 대하여 도메인 상호작용면을 예측 (Interface Prediction) 하는 3가지 기하학적 분석 도구를 소개한다. 보로노이 다이어그램 (Voronoi diagram) 을 이용하면 도메인 인터페이스를 고해상도이면서도 다루기 쉽게 특성화시킬 수 있다. 수학적으로 무한대로 뻗어나가는 보로노이 상호작용면에서 생물리학적으로 의미있는 부분만을 뽑아내기 위하여 경계면 추출 (Boundary Detection) 알고리즘을 제안하였고 이의 구현결과로 나오는 상호작용 면은 정확하게 생물학적으로 의미있는 상호작용면 만을 뽑아낸다. 14,000 여 개의 알려진 모든 도메인 상호작용에 대하여 47,000여 개의 상호작용면을 추출하고 인터페어 데이터베이스에 통합시켜 공개하였다 (http://www.interpare.net).
또한, 본 논문에서는 스핀 이미지 매칭 (Spin-image matching)과 계급적 분류 분석 (Hierarchical Clustering Analysis) 을 통하여 상호작용면들을 구조적 분류할 수 있는 방법을 처음으로 제안하였다. 제안된 분류 방법을 검증하기 위하여 10개의 SCOP Family에 대해서 분류를 한 결과, 상호작용면이 비슷해서 한 Subfamily로 묶인 도메인들은 상호작용면뿐 아니라 상호작용 패턴 (Interaction Pattern) 또한 같다는 것을 발견하였다. 이 같은 발견은 상호작용면의 구조에 따른 단백질의 새로운 분류체계에 따라서 아직 밝혀지지 않은 도메인 간의 상호작용을 높은 정확도로 예측할 수 있다는 것을 의미한다. 이러한 도메인 상호작용 예측 (computational domain interaction prediction) 은 전체 도메인 상호작용지도 (interactome map) 를 완성하여 부작용이 적은 조합 조절 (combinatorial regulation) 기반 신약의 타겟을 찾는 데 큰 공헌을 할 것이다.
마지막으로 본 논문에서는 상호작용면의 상동관계 (homology)와 단백질의 보로노이 다이어그램 (Voronoi Tessellated Protein) 을 이용하여 상호작용면을 예측하는 방법을 제안한다. 제안된 방법을 이용하면 시퀀스만으로 모델링 된 단백질이나 새로 구조가 밝혀져 도메인 할당에 대한 정보가 없는 단백질에 대해서도 상호작용면을 추출하여 심화 연구에 이용할 수 있게 된다.
본 논문에서 제공하는 도메인 상호작용면에 대한 기하학적 분석 및 예측 도구가 구조 생물학, 구조 생물정보학, 그리고 신약개발 분야에 큰 도움이 될 것으로 확신한다.