Over other genomics techniques, whole-genome sequencing can provide clues to infer major mutagenic processes, timing and order of mutations, and evolutionary characteristics of a given sample. Therefore, this can be used as means of understanding and exploring the characteristics of the disease. This dissertation consists of two major parts. Part 1 describes two apparently distinct cell-of-origins and their clonal evolution toward tumorigenesis through combination analyses of genome and transcriptome profiles of 137 thymic epithelial tumors as well as single-cell transcriptomes of normal thymic tissues. These include (1) thymic progenitor cells evolving into copy-number-stable tumors by a GTF2I gain-of-function point-mutation, and (2) differentiated thymic epithelial cells evolving into tumors by the acquisition of multiple arm-level copy number changes and transcriptional activation of IRS4, a novel oncogene. Mutation-timing analyses on the second group revealed that the progressive copy number gains start from the first decade of the patients’ life. By this stratification, thymomas show substantial differences in transcriptional, metabolic, and immuno-oncologic phenotypes, reflecting the heterogeneity of the cell-of-origin.
Part 2 shows an application of the mutational signature analysis to virus evolution to identify its origin and evolutionary characteristics. Through a systematic comparison of 351,525 complete viral genome sequences collected during the recent COVID-19 pandemic, the spectrum of SARS-CoV-2 mutations was investigated. The mutational spectrum of SARS-CoV-2 exhibits extreme asymmetry, with a much higher rate of C>U than U>C substitutions, as well as a higher rate of G>U than U>G substitutions. The substantial asymmetry and directionality of the mutational spectrum enable revealing the Asian origin of SARS-CoV-2 without prior information about the root sequence, collection time, and sampling region. Comparative analysis between relative viruses revealed that the asymmetric spectrum suggests punctuated equilibrium and that the virus is in an accelerated evolutionary phase. These findings provide deep insights into the mutational processes in SARS-CoV-2 viral infection and advance the understanding of the history and future evolution of the virus.
전장유전체 분석 기술은 단순히 주어진 시료의 돌연변이 목록을 얻는 것 이외에도 돌연변이의 주된 발생원인 및 돌연변이의 발생 시기와 순서, 돌연변이가 질병의 진화에 어떤 영향을 주었는지 등을 분석함으로써 질병의 특성을 이해하고 탐구하는 수단으로 사용될 수 있다. 본 학위 논문은 크게 두가지 연구로 이루어져 있으며, 제1 부에서는 흉선 상피암 137례의 통합적 유전체 및 전사체 분석을 통해 이 종양의 GTF2I 돌연변이 및 IRS4유전자 과발현 여부에 따라 그 발생 기원 세포가 다르며 이들의 배수체 돌연변이 발생 시점이 종양발생보다 훨씬 이른 시기부터 서로 다른 양상으로 종양 발생이 진행됨을 밝혔다. 이러한 차이는 상피-간엽 전환, 당 및 지질합성 대사, 체액성 면역 촉발 여부, 재발률 등 질환의 다양한 측면에서 서로 대비되는 특성을 나타내어, 기존의 조직학적 분류보다 더 타당한 분류 체계임을 제시하였다. 제2 부에서는 이러한 분석기법을 바이러스 진화에 적용하여, 2019년부터 세계적으로 유행한 제2형 중증급성호흡기증후군 코로나바이러스의 돌연변이를 분석하여 그 발생 기원과 진화적 특성을 규명하였다. 총 351,515개의 바이러스 염기서열에 대한 계통수 분석 및 돌연변이 분석을 통해 점돌연변이의 스펙트럼을 분석하여, 시토신>우라실 치환이 우라실>시토신 치환에 비해 월등히 빈번한 비대칭 스펙트럼을 관찰하였고, 이를 토대로 바이러스의 인간 기원이 아시아에 있음을 밝혔다. 또한 인접 계통 바이러스와 계통분석을 통해 이러한 비대칭 스펙트럼이 바이러스 숙주 이동에 수반된 단속 평형 현상임을 제시하였다.