One of the fundamental challenges in biology is to find the factors determining protein sequence evolution. Effort to find what determine protein sequence evolution is a process to give an answer to what make human different from other species, why and how humans or other species have such a set of proteins and which way each species is going to evolve further in the future under certain environment.
Up to now, several factors were found to be important to cause protein sequence evolution. These factors are gene expression level, protein sequence length, number of interaction partner, type of interaction partner, gene essentiality, designability and so on. Recently, structural characteristics of proteins are also recognized as an important factor in protein sequence evolution. Especially, impact of contact density and structural fold on evolutionary rate were studied.
Structural characteristics of proteins, especially for interface region, on protein evolution were more specifically studied in this article and several structural determinant of protein sequence evolution were found. First, the interfaces of protein-ligand and protein-protein were found to be evolved slowly compared to non-interface region. Second, the number of domains in a protein is found to be another important factor in protein sequence evolution regardless of contact density. Finally, the interfaces formed between different type of domain and different proteins evolved slowly.
These newly found structural characteristics could be helpful for more precise understanding of protein sequence evolution. This knowledge would be useful for accurate phylogenetic tree construction, genome-wide protein function prediction by measuring evolutionary rate, de novo protein design and modeling species evolution.
단백질 서열은 구조적 특성에 의해 결정되는 진화 속도에 따라 진화해 왔다. 단백질 서열 진화 속도에 영향을 미친다고 알려진 구조적 요소 즉, 접촉 밀도나 구조적 위치 이 외에도, 상호 작용 부위의 종류 또한 단백질 진화 속도에 영향을 미치는 요소라는 것을 본 연구에서 확인하였다. 특히 단백질-기질 혹은 단백질-단백질 상호 작용 부위는 비 상호작용 부위에 비하여 느린 진화 속도를 보였고, 이것은 이들 부위에 존재하는 아미노산들이 중요하게 보존되어 왔다는 것을 반증한다. 이들 부위 또한 기존에 알려진 대로 접촉 밀도의 증가에 따라 서열 진화 속도가 증가하는 경향성을 띠는데, 이는 노출된 부위의 서열 진화 속도가 접촉 밀도의 증가에 따라 증가하는데 기인한다. 단백질이 가지고 있는 도메인의 개수 또한 단백질 서열 진화에 영향을 주는 요소로 본 연구에서 제안되었다. 단백질이 가진 도메인 개수가 증가함에 따라 접촉 밀도는 증가함에도 불구하고, 서열의 진화 속도는 느려지는 경향성을 보인다. 도메인의 개수가 증가함에 따라 하나의 단백질 안에 독립된 진화의 단위인 도메인들 간에 여러 개의 상호 작용 부위가 생겨나고, 이들 각각의 도메인과 도메인들 간의 상호 작용 구조의 유지를 위해서는 도메인의 개수가 적은 것들과 비교해 더 강한 진화 보존성이 작용했던 것이 그 원인으로 추측된다. 상호 작용 부위를 도메인을 기준으로 좀 더 구체적으로 나누어 보면, 서로 다른 종류의 도메인들 사이, 서로 다른 단백질에 존재하는 도메인들 사이 에서 형성되는 결합 부위가 서로 같은 종류, 같은 단백질 안에 존재하는 도메인들 사이에서 형성되는 결합 부위보다 느린 진화 속도를 보인다. 그러나 도메인 기반의 상호 작용 부위에서 보여지는 진화 속도의 차이는 통계적으로 유의미한 결과를 보이지 못하고 충분하지 않은 데이터 숫자로 인해, 본 연구에서 밝혀진 진화 속도의 구체적인 수치 혹은 경향성을 보편적인 사실로 판단하기에는 무리라고 생각되며, Genome Project와 Structural genomics를 통해 충분한 데이터가 확보될 때, 이에 대한 좀 더 명확한 결론을 내릴 수 있을 것이다.