Genomic structural variations have been reported to be involved in tumorigenesis by disrupting tumor suppressor genes and activating oncogenes. With the advent of whole-genome sequencing, structural variations can be detected at a single base-pair resolution. However, currently available tools for the detection of structural variations report many false-positive calls. Thus, a substantial downstream effort has been required to refine the call set. On the other hand, genomic analyses on ALK-rearranged non-small cell lung cancer have been limited to protein-coding regions. This dissertation consists of mainly two parts. Part 1 describes our study on the development of a machine learning-based system for the refinement of structural variations. Our machine learning-based method demonstrated higher precision and recall than previous methods. In addition, our method rescued pathogenic structural variations ignored in previous studies. Our approach can serve as a next-generation pipeline for facilitating accurate and scalable genome analyses. Part 2 demonstrates a genomic analysis of ALK-rearranged non-small cell lung cancer. True-positive list of structural variations was easily obtained by using the method developed in Part 1. We identified that ALK fusion genes were mostly formed by complex genomic rearrangements. Compared to other non-small cell lung cancer, the gain of chromosome 5q was more recurrently observed in ALK-rearranged cases. The ALK rearrangements and 5q gain events were estimated to have occurred more than a decade earlier than diagnoses in most cases. ALK-rearranged lung cancer usually had low mutation burdens and few smoking-induced mutations regardless of smoking history. In addition, less biallelic inactivation of TP53 and more frequent TERT amplification were observed in ALK-rearranged lung cancer.
유전체 구조 변이는 암억제유전자를 파괴하고 종양유전자를 활성화함으로써 암 발생과정에 관여한다고 알려져 왔다. 이러한 구조 변이는 전장 유전체 서열분석 기법의 발전으로 단일 염기 해상도에서 검출할 수 있게 되었다. 그러나, 그동안 개발되어온 구조 변이를 검출하는 방법들은 많은 위양성을 보고하기 때문에 이를 제거하기 위한 추가적인 노력이 요구되어왔다. 한편, 구조 변이에 의해 생성된 ALK 융합 유전자가 비소세포폐암을 유발하기도 하는데, 이러한 암에 대한 구조 변이 연구는 주로 유전자 지역에 한정되어 진행되어왔다. 본 학위 논문은 두 가지 연구로 구성되어 있으며, 제1부에서는 기계학습을 기반으로 구조 변이를 식별하는 방법을 개발한 연구를 다룬다. 우리가 개발한 기계학습 기반의 방법은 기존 방법보다 높은 정밀도와 재현율을 보였고, 기존에 놓친 병원성 변이를 추가로 발견하였다. 우리의 접근법은 정확한 유전체 분석을 대규모 연구로 확장 가능하다는 데 의의가 있다. 제2부에서는 ALK 유전자 재배열에 의해 유발된 비소세포성 폐암의 유전체를 분석한 연구를 다룬다. 앞서 개발한 방법을 적용하여 적은 노력으로 구조 변이 항목을 얻었고, ALK 융합 유전자는 대부분 복잡한 형태의 구조 변이에 의해 형성됨을 발견하였다. 또한, ALK 유전자가 재배열된 경우 다른 비소세포성 폐암보다 더 빈번하게 5번 염색체 장완이 증폭되어 있는 것을 확인하였다. ALK 융합 유전자의 형성과 5번 염색체 장완의 증폭 시점의 추정을 통해, 대다수의 환자에서 이러한 사건들이 진단보다 최소 10년 이전에 발생하였을 것으로 판단하였다. ALK 유전자가 재배열된 비소세포성 폐암은 전반적으로 적은 돌연변이를 가지고 있음을 확인하였고, 흡연 여부와 관련 없이 흡연 유발 돌연변이의 비율도 낮게 관찰되었다. 이들 암에서는 TP53 유전자의 비활성화가 월등히 적었고, TERT 유전자 증폭이 훨씬 빈번하게 관찰되었다.