A Web based microbial Genome Annotation System (WeGAS) was developed that provides several features required in genome annotation, such as gene prediction, homology search, promoter/motif analysis, genome browsing, gene ontology analysis based on the COGs and GO, and metabolic pathway analysis, with web-based interfaces. Most raw data and intermediate data from genome projects can be managed by the WeGAS database system, and analysis results, including information on each gene and final genome maps, are provided by its visualization modules. Especially, a pie-view browser displaying circular maps of contigs and a COG-GO combination browser are very helpful for an overview of projects. Major public microbial genome databases can be imported, searched, and browsed through the WeGAS modules. WeGAS is freely accessible for academic users via web site http://ns.smallsoft.co.kr:8051.
A tandem repeat is defined as a sequence of two or more contiguous, similar copies of a pattern of nucleotides. Tandem repeat sequences have many applications fields including typing microbes, disease diagnosis, mapping studies, DNA fingerprinting in forensic field, sequences homology, and population studies. In this thesis, new algorithm for finding variable number of tandem repeats (VNTR) was developed. This algorithm consisted of three stages. One is to find seed-unit pair which has max alignment score, another is to extend seed-unit to candidate unit which has max score and the third is to enlarge candidate unit to find tandem repeat region score. The global alignment method was used in the each stage to find tandem repeat region. The data of predicted VNTR regions were integrated into the local genome database and could be viewed by VNTR viewer in the WeGAS.
생명체에 존재하는 모든 DNA 서열을 알아내는 게놈프로젝트는 인간 게놈 프로젝트의 완료와 대용량 서열분석기의 발전으로 생명공학 연구분야에서 일반화 되었다.
본 논문에서는 WeGAS (Web-based microbial genome annotation system)라고 명명된 미생물 게놈프로젝트를 원활히 수행하기 위한 웹 기반의 미생물 게놈 주석 (annotation) 시스템을 개발하였다. WeGAS는 크게 세 부분으로 구성된다. 먼저 미생물 게놈프로젝트를 통해 산출되는 서열정보로부터 annotation에 필요한 전체 과정을 자동화 하는 것을 주된 개발 목표로 하였다. 단일 가닥으로 조합된 서열 (contig)을 이용하여 유전자 예측, 프로모터 예측, motif 예측, 상동성 분석자료를 활용한 ontology 분석, 대사경로 분석, t-RNA 예측을 웹으로 수행할 수 있도록 하였다. 분석 과정에서 산출되는 모든 자료는 MySQL을 database engine으로 사용하여 로컬 데이터베이스에 저장된다.
로컬 데이터베이스에 저장된 내용은 개별 정보의 특성에 맞도록 개발된 viewer를 통해 웹 화면을 활용하여 접근할 수 있도록 하였다. 일반적으로 게놈분석은 게놈프로젝트가 완료되는 시점, 즉 단일 contig가 생성되는 시점에서 annotation 작업을 시작하는 것이 일반적이다. 본 논문에서는 게놈프로젝트가 진행중인 단계, 즉 100개 이상의 contig가 산출되는 단계에서도 게놈프로젝트의 진행과 그 결과물에 대한 예측이 가능토록 pie-viewer를 개발하여 사용자가 필요한 유전자 정보를 검색할 수 있도록 하였다. 또한 일반적으로 ontology 분석 결과는 GO 또는 COG에 대해 별도로 보여주는 것이 학계에 발표된 게놈 분석시스템의 한계였다. 본 논문에서는 GO와 COG 분석 결과를 동시에 보여줄 수 있도록 개발하였다.
Variable Number of Tandem Repeats (VNTR)은 미생물 게놈에서 일반적으로 발견되는 서열이다. 이들 서열은 미생물 타이핑(typing), 질병진단, mapping 연구, 법의학부분의 DNA fingerprinting, 서열 상동성, 집단유전 연구에 널리 활용되고 있다. 본 논문에서는 이러한 VNTR을 주어진 서열에서 검색할 수 있는 신규 알고리즘을 개발 하였다. 이 알고리즘은 크게 세가지 단계로 구성되어 있다. 먼저 최대 정열 점수를 가지는 seed-unit을 찾고, 두 번째로 이러한 seed-unit을 확장 한 뒤, 상동성 최대 점수 값을 가지는 후보 unit을 찾는다. 마지막 단계에서는, 후보 unit을 확장해서 tandem repeat 지역을 찾는다. 개별 단계에서 사용되는 pair wise 정렬은 전역정렬 방법을 이용하였다. 결과물로 산출되는 예측된VNTR의 자료는 WeGAS 의 로컬 데이터베이스에 저장되어, WeGAS의 VNTR viewer를 통해 게놈상의 위치 분포를 연구자가 직관적으로 볼 수 있도록 하였다.