One of the greatest challenges in cancer genomics is to distinguish driver mutations from passenger mutations. Whereas recurrence is a hallmark of driver mutations, it is difficult to observe recurring noncoding mutations owing to a limited amount of whole-genome sequenced samples. Hence, it is required to develop a method to predict potentially recurrent mutations. In this work, I developed a random forest classifier that predicts regulatory mutations that may recur based on the features of the mutations repeatedly appearing in a given cohort. Recurrent mutations can arise at the same site or affect the same gene from different sites. Here I identified a set of mutations arising from individual samples and altering different cis-regulatory elements that converge on a common gene via chromatin interactions. With breast cancer and lung cancer as a model, I profiled up-to 50 quantitative features describing genetic and epigenetic signals at the mutation site, transcription factors whose binding motif were disrupted by the mutation, and genes targeted by long-range chromatin interactions. A true set of mutations for random forest was generated by interrogating publicly available pan-cancer genomes based on our statistical model of mutation recurrence. The performance of my random forest classifier was evaluated by cross validations. My methods enable to characterize recurrent regulatory mutations using a limited number of whole-genome samples, and based on the characterization, to predict potential driver mutations whose recurrence is not found in the given samples but likely to be observed with additional samples. The mutations and genes identified in this fashion showed strong relevance to cancer, in contrast to those with site-specific recurrence. My methods were capable of accurately predicting mutations recurring at the target gene level but not those recurring at the same site. In conclusion, I propose a novel approach to discovering potential cancer-driving mutations in noncoding regions.
암 조직에서 발견되는 돌연변이 중에서 암을 유발하는 돌연변이를 구별하는 것은 암 유전체학 분야의 난제 중 하나이다. 암 조직에서 돌연변이의 빈도를 재발율로 정의하는데, 유전자 코딩 지역에서는 재발율을 통해 유발 돌연변이를 구별할 수 있다. 하지만 논코딩 지역을 연구하기 위해서는 전장 유전체에 대해서 재발율을 측정해야 하는데, 유전체 서열 정보의 부족이 문제가 된다. 이 문제 해결을 위해, 위치 단위가 아닌 유전자 단위로 재발율을 측정하는 방법을 개발하였다. 이 방법으로 발굴된 재발 돌연변이를 학습하여, 원인이 될 가능성이 높은 돌연변이를 예측할 수 있는 머신러닝 방법을 개발하였다. 학습할 특성들은 유방암과 폐암 조직에서 발견되는 돌연변이에 대해 최대 50가지의 정량적 특성을 추출하여 사용하였는데, 유전적, 후성유전적 특성, 돌연변이 위치에 결합하는 인자들의 특성들이 포함되었다. 또한 돌연변이의 조절 대상 유전자를 크로마틴 원거리 상호작용 정보에서 추정하여, 이 유전자의 여러 특성을 추가하였다. 머신러닝의 성능은 교차 검증을 통해 측정하였으며, 학습된 모델에서 예측한 돌연변이의 암과의 관련성을 밝혀 머신러닝의 효용성을 검증하였다. 결론적으로, 이 연구는 암의 원인이 되는 돌연변이를 찾아내는 효율적인 머신러닝 방법을 새로 제시하였다.