서지주요정보
Identification of protein homology using domain architecture comparison = 도메인 아키텍쳐 비교를 이용한 단백질 상동성 연구
서명 / 저자 Identification of protein homology using domain architecture comparison = 도메인 아키텍쳐 비교를 이용한 단백질 상동성 연구 / Byung-Wook Lee.
저자명 Lee, Byung-Wook ; 이병욱
발행사항 [대전 : 한국과학기술원, 2009].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8020254

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 09001

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Homology identification is the first step for many genomic studies and can be divided into sequence-based and domain-based methods. The sequence-based homology searches can yield false mis-assignments, especially when comparing multidomain proteins. Here we propose a new method to detect homologs through explicit comparison of domain architecture. A major obstacle in comparison of domain architecture, the organization of protein domains, is the existence of ‘promiscuous’ domains, which carry out auxiliary functions and appear in many unrelated proteins. To distinguish these promiscuous domains from protein domains, we assigned a weight score to each domain extracted from RefSeq proteins, based on its abundance and versatility. To measure domain abundance and versatility, we defined the Inverse Versatility (IV) and the Inverse Abundance Frequency (IAF), derived from Inverse Document Frequency (IDF), a statistic commonly used in information retrieval. A domain’s score represents its importance in the “protein world” and is used in the comparison of domain architectures. We examined the weight scores of 215 known promiscuous domains to identify relationship between the obtained weight scores and domain promiscuity. We found that all of the known promiscuous domains have very low weight scores, most of which are below 10. In scoring domains, domain combinations were also considered as well as single domains. To measure domain architecture similarity, we compared domain content, domain order, and domain duplication between two domain architectures. To do this, we used several methods that are based on algorithms used in information retrieval (the cosine similarity, the Goodman-Kruskal gamma function, and domain duplication index). A final similarity score between two domain architectures were obtained by combining these three indices into a similarity score. To determine the best combination of three indices, we used the COG database. Our method was compared with other homology identification algorithms, such as BLASTP and PDART, using human and mouse proteins. The comparison shows that our method is better at identifying multidomain protein homology. We developed a web server, called DAhunter, to provide domain-architecture-based homology identification service on the fly. The server is available at http://www.dahunter.kr/. In addition, we examined the widespread use of the promiscuous domains in the metazoan evolution. To do this, we obtained exon-bordering domains from eight eukaryotic proteomes and divided them into nine classes according to the flanking intron classes. Among these, protein domains coded by symmetric exons in metazoan phyla can be divided into ancient (class 0-0) and modern (class 1-1) domains by the age of protein domains. We compare the spread, versatility, and subcellular localization of ancient and modern domains by analyzing eight metazoan genomes and their respective annotated proteomes to identify the contributions of ancient and modern domains to metazoan evolution. We found that modern domains have been expanding in membrane and secreted proteins as multicellular organisms evolved. In contrast, ancient domains have been decreasing during metazoan evolution and are located mainly in nuclear and cytoplasmic proteins.

현재까지 전체 유전체 서열이 밝혀진 생물종이 600개 이상이며, 그로부터 생성된 단백질 서열의 개수가 600만개 정도 알려져 있다. 앞으로 시퀀싱 기술의 발달로 그 수는 기하급수적으로 증가할 것으로 예상된다. 새로운 단백질 기능을 밝히기 위한 방법으로는 기능이 알려진 단백질들과 상동성을 비교하는 것이 일반적으로 이용된다. 이러한 상동성 비교를 위해서 다양한 생물정보학적인 방법들이 알려져 있지만, 크게 서열기반 상동성 비교와 단백질 도메인 기반 상동성 비교 방법으로 나누어 볼 수 있다. 서열 기반 방법 (BLAST 또는 FASTA)은 서열의 유사도 (similarity)를 측정하여 기능을 유추한다. 그러나, 이 방법은 낮은 서열 유사도를 가진 homolog나, 많은 도메인을 가진 단백질들의 기능을 유추하는 데는 한계가 있습니다. 그에 비해서, 단백질 도메인 비교방법은 대부분 단백질 상의 도메인 아키텍쳐 차이를 이용한다. 기존의 도메인 비교방법은 모든 도메인들을 같은 중요도를 가진 것으로 처리하는 문제점이 있다. 그러나, 어떤 도메인들은 상동성과 관련이 없이 단지 단백질의 보조기능을 하는 도메인으로 존재한다. 이러한 도메인들을 ‘promiscuous’ 도메인이라고 한다. 본 연구에서는 기존에 도메인 비교 방법을 개선한 새로운 도메인 아키텍쳐 비교 방법을 고안하였다. 우선, promiscuous 도메인과 중요 도메인을 구분하기 위해서, 각 도메인들에 중요도를 구분할 수 있는 점수를 할당하였다. 이 점수는 각 도메인의 출현빈도 (abundance)와 이웃하는 도메인의 종류 (versatility)를 기반으로 데이터마이닝에서 사용하는 TF-IDF개념을 이용하였습니다. 기본 아이디어는 도메인이 단백질 데이터베이스에서 많이 존재하고, 같은 단백질 상에서 이웃하는 도메인 페밀리의 수가 많을수록 도메인의 중요도는 떨어지며, promiscuous 도메인이 될 수 있다는 것이다. 도메인의 점수를 얻기 위해서 RefSeq protein데이터베이스에 존재하는 단백질 서열을 Pfam 도메인 데이터베이스로 annotation을 한 다음, 각 도메인의 abundance와 versatility를 구하였다. 구한 두 값을 곱하여 도메인의 중요도 점수를 얻었다. 점수의 분포는 104에서 0까지 존재하며, 대부분은 100이상의 점수를 가졌다. 점수가 낮을수록 promiscuous 도메인일 가능성이 높아진다. 이러한 도메인 점수를 이용하여 두 도메인 아키텍쳐 비교하는 방법을 고안하였다. 이 방법에는 공통 도메인의 개수, 도메인 순서, 그리고 도메인 복사의 값을 계산한 다음, 각각의 값을 linear function으로 더한 값으로 두 도메인 아키텍쳐의 상동성 스코어로 정하였다. 이 함수의 coefficient값을 계산하기 위해서 COG DB를 이용하였다. 본 방법과 기존의 상동성 검색 방법과 비교를 하기 위해서 사람과 쥐의 단백질을 이용하였다. 상동성 검증을 위해서 HomoloGene DB를 이용하였다. 비교된 기존방법으로는 PDART (unweighted 방법)과 BLASTP (서열기반 방법)이며, 비교를 통해서 본 방법이 multidomain protein 비교에 좀더 효과적인 것을 알 수 있었습니다. 본 알고리즘은 http://www.dahunter.kr을 통해서 공개하였다. 또 다른 연구로는 eukaryote 진화에서 promiscuous 도메인의 mobility와 sub-cellular localization을 측정하는 연구를 수행하였다. 현재까지, eukaryote에서 도메인의 promiscuity는 주로 exon-shuffling에 의해서 이루어 진다고 알려져 있다. 그래서, 8개의 eukaryote proteome로부터 exon-bordering 도메인들을 얻은 다음, 이들을 이웃하는 intron 클래스 별로 9그룹으로 나누었다. 이들 중 class 1-1 와 class 0-0 도메인들은 각각 modern 도메인과 ancient 도메인으로 구분할 수 있다. 이 두 그룹 도메인들 간의 versatility와 sub-cellular localization을 조사하였다. 그 결과, modern 도메인들은 세포의 막과 분비 단백질에서 많이 존재하며, 진화가 진행될수록 그 빈도가 증가 한다는 것을 알 수 있었다. 반대로, ancient 도메인들은 핵과 세포질에 많이 존재하는 것을 알 수 있었으며, 이들은 진화와 상관없이 같은 비율로 존재한다는 것을 알 수 있었다.

서지기타정보

서지기타정보
청구기호 {DBiS 09001
형태사항 x, 103 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이병욱
지도교수의 영문표기 : Kwang H. Lee
지도교수의 한글표기 : 이광형
공동교수의 영문표기 : Do-Heon Lee
공동교수의 한글표기 : 이도헌
Appendix : 1, TF-IDF concept. - 2, Cosine similarity. - 3, Weight scores of known eukaryotic promiscuous domains.
수록잡지정보 : "Patome: a database server for biological sequence annotation and analysis in issued patents and published patent applications". Nucleic Acids Research, v.35 Database issue, pp. D47-D50(2007)
수록잡지정보 : "DAhunter: a web-based server that identifies homologous proteins by comparing domain architecture". Nucleic Acids Research, v.36 no.suppl_2, pp. W60-W64(2008)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 81-90
주제 homology;protein;domain;architecture;bioinformatics
상동성;단백질;도메인;아키텍쳐;생물정보
QR CODE qr code