서지주요정보
Machine learning for the identification of noncoding driver mutations in cancer = 암 세포에서 발생하는 돌연변이의 기능을 확인하기 위한 머신러닝 알고리즘 연구
서명 / 저자 Machine learning for the identification of noncoding driver mutations in cancer = 암 세포에서 발생하는 돌연변이의 기능을 확인하기 위한 머신러닝 알고리즘 연구 / Woojin Yang.
저자명 Yang, Woojin ; 양우진
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031540

소장위치/청구기호

학술문화관(문화관) 보존서고

DBIS 17011

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

One of the greatest challenges in cancer genomics is to distinguish driver mutations from passenger mutations. Whereas recurrence is a hallmark of driver mutations, it is difficult to observe recurring noncoding mutations owing to a limited amount of whole-genome sequenced samples. Hence, it is required to develop a method to predict potentially recurrent mutations. In this work, I developed a random forest classifier that predicts regulatory mutations that may recur based on the features of the mutations repeatedly appearing in a given cohort. Recurrent mutations can arise at the same site or affect the same gene from different sites. Here I identified a set of mutations arising from individual samples and altering different cis-regulatory elements that converge on a common gene via chromatin interactions. With breast cancer and lung cancer as a model, I profiled up-to 50 quantitative features describing genetic and epigenetic signals at the mutation site, transcription factors whose binding motif were disrupted by the mutation, and genes targeted by long-range chromatin interactions. A true set of mutations for random forest was generated by interrogating publicly available pan-cancer genomes based on our statistical model of mutation recurrence. The performance of my random forest classifier was evaluated by cross validations. My methods enable to characterize recurrent regulatory mutations using a limited number of whole-genome samples, and based on the characterization, to predict potential driver mutations whose recurrence is not found in the given samples but likely to be observed with additional samples. The mutations and genes identified in this fashion showed strong relevance to cancer, in contrast to those with site-specific recurrence. My methods were capable of accurately predicting mutations recurring at the target gene level but not those recurring at the same site. In conclusion, I propose a novel approach to discovering potential cancer-driving mutations in noncoding regions.

암 조직에서 발견되는 돌연변이 중에서 암을 유발하는 돌연변이를 구별하는 것은 암 유전체학 분야의 난제 중 하나이다. 암 조직에서 돌연변이의 빈도를 재발율로 정의하는데, 유전자 코딩 지역에서는 재발율을 통해 유발 돌연변이를 구별할 수 있다. 하지만 논코딩 지역을 연구하기 위해서는 전장 유전체에 대해서 재발율을 측정해야 하는데, 유전체 서열 정보의 부족이 문제가 된다. 이 문제 해결을 위해, 위치 단위가 아닌 유전자 단위로 재발율을 측정하는 방법을 개발하였다. 이 방법으로 발굴된 재발 돌연변이를 학습하여, 원인이 될 가능성이 높은 돌연변이를 예측할 수 있는 머신러닝 방법을 개발하였다. 학습할 특성들은 유방암과 폐암 조직에서 발견되는 돌연변이에 대해 최대 50가지의 정량적 특성을 추출하여 사용하였는데, 유전적, 후성유전적 특성, 돌연변이 위치에 결합하는 인자들의 특성들이 포함되었다. 또한 돌연변이의 조절 대상 유전자를 크로마틴 원거리 상호작용 정보에서 추정하여, 이 유전자의 여러 특성을 추가하였다. 머신러닝의 성능은 교차 검증을 통해 측정하였으며, 학습된 모델에서 예측한 돌연변이의 암과의 관련성을 밝혀 머신러닝의 효용성을 검증하였다. 결론적으로, 이 연구는 암의 원인이 되는 돌연변이를 찾아내는 효율적인 머신러닝 방법을 새로 제시하였다.

서지기타정보

서지기타정보
청구기호 {DBIS 17011
형태사항 iv, 83 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 양우진
지도교수의 영문표기 : Jung Kyoon Choi
지도교수의 한글표기 : 최정균
수록잡지명 : "Chromatin structure-based prediction of recurrent noncoding mutations in cancer". Nature Genetics, v.48.no.11, pp.1321-1326(2016)
수록잡지명 : "Predicting the recurrence of noncoding regulatory mutations in cancer". BMC Bioinformatics, v.17.no.1, p.492(2016)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References: p. 76-80
주제 머신러닝
후성유전체
암 체세포 돌연변이
크로마틴 원거리 상호작용
전사체
machine learning
epigenome
cancer somatic mutation
distal chromatin interaction
transcriptome
QR CODE qr code