In eukaryotes, gene expression is controlled at several levels. Amongst all levels, the first regulation occurs at the transcriptional level, where transcription factors regulate the transference of genetic information from DNA of specific genes to RNA. It has been recently highlighted that the function of several proteins, also called cofactors, is critical for transcriptional regulation. It is therefore necessary to understand the functional dependency between transcription factors and cofactors. Analysis of currently available protein complex data may help elucidate the comprehensive transcription machinery.
In this study, I have constructed a web-based database system (Saccharomyces cerevisiae transcription factor complex database) that provides transcription factor related protein complexes in yeast. I used two types of data in this work. The non-redundant set of protein complexes and list of transcription factors were retrieved from databases and literatures. All the complexes were annotated using Gene Ontology (GO) and KEGG pathway by composite function enrichment analysis. Moreover, I identified potential transcription cofactors from the collected transcription protein complexes. The Support Vector Machine (SVM) was used in the prediction on the basis of the domains and active sites defined for established transcription cofactors. The prediction accuracy was 87% using 5-fold cross-validation.
This system organizes an expanded set of 1546 yeast transcription complexes along with their biological functions involved. It also provides many transcription cofactors including 368 candidates, which allows understanding the concerted function of transcription factors and cofactors. Furthermore, it is expected that the data in this system can be valuable for studying gene regulation at transcriptional level in higher organisms.
유전자 발현 조절은 세포 내, 외부의 신호에 대한 반응, 생체 내 조직 별 특성화된 기능 유지 등에 매우 중요하다. 진핵생물의 유전자 발현 조절은 다양한 레벨에서 복잡한 과정을 통해 이뤄진다. 첫 번째 조절 단계인 전사에서 전사인자는 유전자의 DNA로부터 RNA로 유전정보를 전달하는 것을 조절한다. 그 과정에서 전사인자와 함께 전사를 조절하는 전사 보조인자의 상호작용은 일차적인 조절 메커니즘으로 알려지고 있다. 따라서 정확한 전사 조절 메커니즘의 이해를 위해 전사인자를 찾고 기능적 연관성이 있는 전사 보조인자를 찾는 연구가 필수적이다. 단백질 복합체를 이용한 분석은 종합적인 전사과정에 대한 설명에 도움을 줄 수 있다. 본 논문에서는 효모의 전사인자 단백질 복합체 정보를 제공하는 웹 기반의 데이터베이스 시스템을 구축하였다. Gene Ontology와 KEGG pathway를 이용한 복합기능 enrichment 를 통해 모든 전사인자 단백질 복합체에 대해 기능 및 경로 정보를 제공한다. 또한 Support Vector Machine을 사용하여 전사인자 단백질 복합체 내에서 새로운 전사 보조인자를 예측하였다. 본 데이터베이스 시스템은 생물학적 기능을 가지는 1546개의 전사인자 단백질 복합체와 368개의 전사 보조인자를 제공한다. 이는 효모의 전사과정에서 유전자 조절에 대한 메커니즘을 연구하는데 유용한 정보를 활용 될 수 있다.