For the last decade, many variants on chromosomes related to various diseases have been discovered along with the development of Genome-wide association studies (GWASs). However, it is challenging to specify variants that directly affect the disease due to linkage disequilibrium (LD). Also, which cell type a causal variant functions as a risk factor remains a task to be solved. Therefore, I developed a convolutional neural network (CNN) model that indicates variants and cell types directly related to diseases using GWAS summary statistics and information about open chromatin regions of several cell types from single-cell OMICS data. The model is expected to find novel causal risk factors which previous fine-mapping methods could not detect. Also, some genes will be presented as drug targets through downstream analysis to connect the causal risk factors to associated genes.
지난 10여 년간 전장 유전체 연관 분석이 발전을 거듭해 오면서, 여러 질병과 관련 있는 염색체 상의 변이가 많이 발견되고 있다. 하지만 연관 불균형에 따른 문제로 질병에 직접적인 영향을 미치는 변이를 특정하는 것이 어렵고, 어떠한 종류의 세포에서 해당 변이가 위험 인자로 작용하는 가에 대한 물음을 해결하지 못한 경우도 많다. 이에 본 학위논문에서는 전장 유전체 연관 분석에서 보고된 변이에 대한 데이터와 최근 떠오르는 단일 세포 오믹스 데이터에서 얻은 세포 종류 별 열린 염색질 지역에 관한 정보를 활용하여, 질병과 직접적으로 관련된 변이 및 세포 종류를 특정하는 합성곱 신경망 모델을 개발하였다. 이를 통해 기존의 정밀 분석 방식을 통해서는 발굴할 수 없었던 새로운 인과적 변이 후보들을 질병 별로 제시할 수 있을 것으로 기대하며, 해당 변이와 연결된 유전자를 유전체 상에서 찾는 분석 기법을 통해 약물 타겟으로 활용할 수 있는 유전자 후보 역시 제시하고자 한다.