서지주요정보
Protein coding region identification = DNA 염기열에서 단백질 코딩 부위 검색 방법
서명 / 저자 Protein coding region identification = DNA 염기열에서 단백질 코딩 부위 검색 방법 / Se-Yeon Weon.
발행사항 [대전 : 한국과학기술원, 1995].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8005880

소장위치/청구기호

학술문화관(문화관) 보존서고

DBT 95009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A protein coding region is the region in a DNA sequence which results in the generation of a protein product. Protein coding region identification is the first thing usually done after the determination of a DNA sequence. Many different computer programs have been developed for this purpose and it is one of the major and productive fields of computational biology nowadays. Protein coding region databases for E. coli, primate, and S. cerevisiae were created from GenBank. Trimer frequencies for 64 trimers in 6 different phases (3 for each direction) were counted from these databases. An analysis of trimer frequencies in above three organisms were done. A new protein coding measure called TFD(trimer frequency difference) was devised by subtracting a trimer frequency in a phase by another phase. Among 30 possible combinations, 5 of them (subtracting phase 1, direction 0 by the other 5 phases) are selected to use as a protein coding measure. An analysis of TFDs of above three organisms was done and the quality of TFD as a protein coding measure was examined. A frequency fluctuation presenting method called NC(normalized cumulative) plot is devised. Different from sliding window method, NC plot shows frequency fluctuation as it is. Many different applications are possible with NC plot. By combining TFD and NC plot, a new computer program for protein coding region identification called DNAClimber was devised. In the case of E. coli, 96.4% of 319 test protein coding regions can be found using DNAClimber. For S. cerevisiae, 93.5% of 371 test protein coding regions were found using DNAClimber. The so-called antisense symmetry problem of protein coding region identification methods is overcome in DNAClimber by using $TFD_5$. Another usage of DNAClimber is detecting sequencing errors. Since the current method of DNA sequence determination is error prone, it is important to have a tool for detecting sequencing

DNA 염기열은 단지 4가지 종류의 문자로 이루어져 있으며, 뛰어쓰기나 기타 구분되는 표식이 없으며 일반적으로 매우 길다. 또한 DNA 염기열이 담고 있는 유전 정보는 우리가 사용하는 언어와는 다른 복잡한 규칙들로 이루어져 있으므로 우리가 DNA 염기열을 다루는데는 컴퓨터의 도움이 반드시 필요하다. 단백질 코딩 부위는 DNA가 가진 가장 중요한 목적인 단백질에 관한 정보를 담고 있는 부위를 말한다. DNA 염기열에서 단백질 코딩 부위를 찾아내는 것은 우리가 어떤 DNA 염기열을 밝혀낸 다음 행하게 되는 첫번째 일들 중의 하나이다. 컴퓨터를 이용한 단백질 코딩 부위 검색은 전산생물학 분야이기도 하다. 본 연구에서는 DNA Climber라 명명되어진 새로운 단백질 코딩 부위 검색 프로그램이 개발되었으며, 그 밖에 NC (Normalized Cumulative) plot이라 명명되어진 변화를 있는 그대로 나타낼 수 있는 방법의 개발, TFD (Trimer Frequency Difference) 인덱스로 명명되어진 주어진 DNA 염기열이 단백질 코딩 부위가 될 수 있는 정도를 측정하는 인덱스의 개발이 이루어졌다. 먼저 GenBank로보터 대장균, 사람, 그리고 효모의 세가지 생물체의 이미 알려진 단백질 코딩 부위 데이타베이스를 만들었다. 이를 이용하여 각각의 생물체에 대하여 64가지의 trimer(즉, DNA 염기열을 구성하는 4가지 문자를 세 개씩 조합한 것, 따라서 64가지)가 나타나는 확률을 6개의 phase에 대해서 구하였다. DNA는 양방향성을 가지는 정보기록 장치이고, 단백질은 coden이라 불리우는 trimer 단위로 기록되므로 두개의 방향과 각 방향에 대해 3개의 phase가 존재하므로 도합 6개의 phase가 된다. 위의 세가지 생물체에서 이 trimer의 분포들에 대한 조사도 본 연구의 일부로 포함되었다. 하나의 phase에서 다른 phase의 trimer 확률을 빼는 과정으로 TFD 인덱스들이 만들어졌다. 가능한 30가지 조합들중에서 정방향의 phase I에서 나머지 5가지 phase를 뺀 것 5가지가 선택되어 각기 $TFD_1$, $TFD_2$, $TFD_2$, $TFD_3$, $TFD_4$, $TFD_5$로 명명되어졌다. 이들의 분포, 단백질 코딩 부위가 될 수 있는 정도를 측정하는 인덱스로써의 정확도 등이 조사되어졌다. antisense symmetry는 특히 단백질 코딩 부위가 그 반대 방향도 마치 단백질 코딩 부위인 것처럼 보이는 현상을 말한다. 이것은 또한 서로 상보적인 관계가 있는 두 codon의 분포가 한 방향, 한 phase에서 유사하다는 것을 뜻한다. 이로 인해 컴퓨터를 이용한 단백질 코딩 부위 검색에서 생기는 문제는 DNA의 두가지 방향이 모두 단백질 코딩 부위처럼 보이게 되므로, 어느 방향이 진정한 단백질 코딩 방향인지를 결정해야 한다. 지금까지 일반적으로 Bayes 통계방법을 사용하여 이 문제를 해결해 왔다. 본 연구의 결과인 $TFD_5$를 이용하면 단순하고 명료하게 어느 방향인지를 결정할 수 있다. NC plot은 분포를 있는 그대로 나타낼 수 있는 방법으로 개발되었으며, DNA Climber에서뿐만 아니라, 다른 일반적인 목적으로 sliding window 방법을 대신하여 사용될 수 있다. DNA 염기들의 분포를 NC plot을 이용하여 조사한 예가 본 연구의 일부로 포함되었다. 위의 TFD 인덱스와 NC plot을 합쳐서 DNA Climber 프로그램이 만들어졌다. 이 프로그램의 장점은 NC plot의 있는 그대로의 분포를 보여주는 성질에 의한 것과 TFD가 어떤 codon이 나타나는 빈도와 함께 phase와 방향까지 고려한 것이라는 점으로 인한 것이다. 대장균의 경우 GenBank에서 추출한 편중되지 않은 표본을 대상으로 DNA Climber를 이용하여 319개의 단백질 코딩 부위를 찾는 테스트에서 96.4% 확률로 단백질 코딩 부위를 찾아낼 수 있다. 효모의 경우에는 371개를 표본으로 하여 93.5%의 확률로 단백질 코딩 부위를 찾아낼 수 있었다. DNA Climber의 또 다른 용도는 NC plot의 장점에 기인한 것으로, DNA 염기서열 결정 방법의 약점으로 인해 흔히 일어나는 염기서열 결정시의 실수를 찾아내는데 사용할 수 있는 점이다.

서지기타정보

서지기타정보
청구기호 {DBT 95009
형태사항 vii, 110 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 원세연
지도교수의 영문표기 : Chang-Won Kang
지도교수의 한글표기 : 강창원
학위논문 학위논문(박사) - 한국과학기술원 : 생물과학과,
서지주기 Reference : p. 101-106
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서