서지주요정보
Repetitive element array based genome analysis and application = 유전체 반복적 인자 배열의 분석과 응용
서명 / 저자 Repetitive element array based genome analysis and application = 유전체 반복적 인자 배열의 분석과 응용 / Woo-Chan Kim.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8024642

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 13024

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Since the first human genome was reported to be decoded by the human genome project in 2001, many researchers and scientists in chemistry and engineering as well as molecular biology have studied genomics. Up to now, almost researches on genomics haves focused on the gene study. Genes, however, are reported to constitute only 2~3% of the human genome, whereas repetitive elements (REs) make up a large portion of genomes of human and other eukaryotes. Current RE studies mainly deal with the known specific REs although many REs have not yet been analyzed and various REs are highly organized in genomes. Thus, in this thesis, we hypothesize that highly ordered RE arrays are associated with evolution and contribute many biological phenomena, and verify the hypothesis through the systematic analysis of the DNA sequence based on RE array. Furthermore, we present an application that uses the unique structure of RE and RE array. First, we develop a program to find RE arrays from the large size of genomes. Previous programs mainly detect the reported REs and deal with the small sized genomes. However, the RE search program in this thesis handles all unknown REs as well as the known REs. Also, chromosome-wide or species-wide genome analysis is necessary since REs exist in almost regions of a genome and individual RE has biologic effect to other REs. We make efficient algorithms and optimize the program structure to maximize the computational efficiency with low computing resources. We, also, develop a visualization program to see the RE array patterns and their characteristics. Second, we analyze the structure of multiple tandem repeat arrays of the human genome based on the systematic approach. The multiple tandem repeat arrays are very highly structured and organized in the human genome, so they are expected to have an important role in various biological phenomena. In addition, systematic analysis should be used to analyze the multiple tandem repeat arrays that are very complex compared to the general repetitive elements like satellites. By using the proposed system for analyzing the multiple tandem repeat arrays, we can not only easily see the structure and status of the multiple tandem repeat arrays, but also use it in performing the biological experiments to determine phenotypes of complex RE patterns. Third, as an application of RE array, we present DNA word based genomic signature, which is inspired by the fact that each species has its own RE array structure and DNA word is a basic unit of an RE. Our proposed genomics signatures are based on the order of DNA word. We also present metrics for evaluating the identification efficiency of genomes. In addition, we analyzed 200 bacterial genomes from GenBank to see the performance of the presented genomic signatures, and show that the proposed genomic signatures identify the bacterial genomes better than the conventional genomic signatures. By using the proposed genomic signatures, we can develop efficient phylogeny system.

2001년 인간 게놈 프로젝트를 통해 인간 유전체 지도의 대부분이 완성된 이후, 분자 생물학의 과학자들뿐만 아니라 화학과 공학 등의 다양한 분야의 연구자들이 유전체 지도를 통해 생명 현상을 해석하기 위해 노력하고 있다. 현재까지 이러한 유전체 분석 연구는 주로 단백질을 합성하는 유전자를 중심으로 이루어져 왔다. 하지만, 인간의 유전체 전체에서 유전자는 약 2~3% 만을 차지하고 있는 반면, 반복적 인자 (Repetitive Element: RE) 는 유전체 전체의 50% 이상을 차지하고 있다. 또한, 최근 반복적 인자에 대한 생물학적 기능들이 밝혀지고 있지만, 이에 대한 종합적이고 구조적인 분석은 부족한 실정이다. 하지만, 반복적 인자는 유전체 내에서 매우 방대하며 유전체에 따라 독특한 계층적 구조를 이루고 있기 때문에 그러한 방대하고 복잡한 정보를 해석할 수 있는 시스템적 분석 방법이 필요하다. 따라서, 본 논문에서는 인간 및 다른 종들의 유전체에서 반복적 인자가 생성하는 복잡하고 독특한 구조 패턴이 유전체 구조 및 표현형 결정 등의 생명 현상에 중요한 역할을 한다는 가설을 세우고, 이러한 가설을 증명하기 위한 시스템적 분석 방법을 제시한다. 또한, 유전체 내 반복적 인자가 가지는 독특한 구조를 이용한 응용 시스템을 제시한다. 첫째, 염색체 혹은 개체 단위의 대규모 유전체로부터 반복적 인자 및 반복적 인자 배열 (Repetitive Element Array) 들을 효율적으로 추출할 수 있는 알고리즘 및 프로그램을 개발한다. 반복적 인자를 추출하는 기존의 프로그램들은 알려져 있는 특정 반복적 인자를 찾는데 집중하거나 분석 대상으로 하는 염기서열의 크기가 작다. 하지만, 본 논문에서는 알려져 있는 반복적 인자뿐 아니라 알려져 있지 않은 모든 반복적 인자들을 추출하는데 초점을 맞춘다. 또한, 반복적 인자는 유전체 내 거의 모든 부분에 분포되어 있으며 그들이 서로 연관 관계를 가지고 있으므로 염색체 혹은 개체 단위의 대규모 단위로 반복적 인자를 추출한다. 이를 위해, 최소한의 컴퓨팅 자원을 이용하여 처리 속도를 극대화하는 알고리즘을 개발하고 프로그램 구조의 최적화 작업을 수행한다. 또한, 추출된 반복적 인자를 보여주는 프로그램을 개발하여 반복적 인자들이 이루는 복잡하고 독특한 구조를 확인하고 그 특징을 알아본다. 둘째, 시스템적 접근 방식을 이용하여 인간 유전체에 존재하는 MTRA (Multiple Tandem Repeat Array) 의 구조를 분석한다. MTRA는 인간 유전체 내에서 매우 구조적으로 형성되어 있기 때문에 다양한 생물학적 현상에 중요한 영향을 미치고 있을 것으로 예상된다. 또한, MTRA는 satellite와 같은 기존에 분석하던 반복적 인자들 보다 훨씬 복잡한 구조를 가지고 있기 때문에 그에 따른 시스템적인 분석이 필요하다. 본 논문에서 MTRA를 분석하기 위해 제안된 시스템 모델을 이용하여 MTRA의 구조와 상태를 쉽게 확인할 수 있을 뿐만 아니라 복잡한 반복적 인자 패턴의 표현형을 결정짓는 생물학적 실험을 수행하는 데에도 큰 도움을 줄 수 있을 것이다. 셋째, 반복적 인자를 이용한 응용 어플리케이션으로써, 반복적 인자가 각각의 유전체 내에서 독특한 구조를 이루고 있다는 사실에 기반하여, 반복적 인자의 기본 단위인 DNA word를 이용한 genomic signature를 제시한다. 특히, 본 논문에서는 DNA word의 빈도를 이용한 기존의 genomic signature와 다르게 DNA word의 순서를 이용한 genomic signature를 제안함으로써 유전체를 좀 더 효율적으로 식별할 수 있도록 한다. 기존에는 genomic signature의 유전체 식별 효율성을 종합적이고 통계적으로 측정할 수 있는 표준이 없으므로, 새로운 측정 방안을 제시하고 그것을 이용하여 제안한 genomic signature의 유전체 식별 효율성을 이전의 genomic signature와 비교한다. 또한, 측정의 신뢰성을 높이기 위해 200개의 다양한 박테리아 유전체를 대상으로 실험한다. 본 논문에서 제안한 genomic signature를 이용하여 생물의 DNA 염기서열을 기반으로 쉽고 효율적인 계통 분류를 할 수 있는 시스템을 개발할 수 있다.

서지기타정보

서지기타정보
청구기호 {DEE 13024
형태사항 vi, 66 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김우찬
지도교수의 영문표기 : Dong-Ho Cho
지도교수의 한글표기 : 조동호
수록잡지명 : "REMiner-II: A tool for rapid identification and configuration of repetitive element arrays from large mammalian chromosomes as a single query". Genomics, v.100, no.3, pp.131-140(2012)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학과,
서지주기 References : p. 60-65
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서