서지주요정보
Integrative analysis of human tissue 3D epigenomes by combining multi-omics data = 멀티오믹스 데이터를 결합한 인간 조직 3D 후성유전체의 통합적 분석
서명 / 저자 Integrative analysis of human tissue 3D epigenomes by combining multi-omics data = 멀티오믹스 데이터를 결합한 인간 조직 3D 후성유전체의 통합적 분석 / Dongchan Yang.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038685

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DBIS 22001

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Background: After the Human genome project, lots of variants were identified. And succeeding researches investigated how these variants are associated with the traits such as disease. The 3D genome especially can estimate the effects of the variants in the distal non-coding region. However, the number of 3D genome data in human tissue is not enough to understand the regulatory mechanism of non-coding variants in vivo. In this aspect, lots of 3D genome prediction models have been developed. However, most of them are either transcription factor (TF)-dependent, or tissue-invariant. The TF-dependent models are not suitable to predict the 3D genome of human tissues without TF binding information. On the other hand, the tissue-invariant models do not reflect the cell type variant nature of genome structure. Results: In order to overcome these limitations, we combined the multi-omics data from human tissues, and build deep-learning model to predict 3D genome structure. At first, the 3D genomic and epigenomic data were curated, processed, and normalized to build the database. This database, 3DIV provides the intuitive visualization of uniformly processed human multi-omics data. With these multi-omics data, we build the DeepLUCIA, the deep-learning based model to predict the chromatin loops, one of the distinct feature of human 3D genome. As the result, DeepLUCIA predicts the chromatin loops well with 12 epigenetic marks even without CTCF, the critical TF in chromatin loop formation. For benchmark, we compared DeepLUCIA with the 3DEpiLoop, chromatin loop prediction model based on the classical machine learning approach. The prediction accuracy is comparable even 3DEpiLoop requires many TF binding information. Moreover, DeepLUCIA can predicts the inter-domain chromatin loops which might be crucial for high-order genome structure, while it was not the 3DEpiLoop's concern. With the verified prediction performance, we connected the genomic variants and the traits in the context of human tissue 3D genome. At first, the fetal-heart specific physical interaction between Brudaga syndrome-associated variants and its target gene SCN5A is predicted. Similarly, the SARS-COV-2 infection hospitality-associated genomic variants bind to the promoters of CCR gene clusters in monocyte and lung-specific manner. Finally, the age-related macular degeneration(AMD)-associated variants in KCNT2 gene body binds to the promoter of complement system-related CFH/CFHR gene clusters in liver-specific manner. Conclusion: We curated the massive epigenomic and genomic data from recent advancement of genomics. Then the data were combined with 3D genomics data to construct the multiomics database. With the application of deep-learning on this database, we can make the predictive model to predict 3D genome of human tissues which have not been covered by previous models based on classical machine learning approach. These database and prediction model are helpful to most of the biologists which are not familiar with the 3D genome data by providing the contexts of 3D genomics in interpretation of noncoding variants.

연구배경: 인간 유전체 프로젝트 이후로 인간 유전체 상의 변이들이 밝혀졌고, 뒤를 이은 여러 프로젝트들이 이들 변이가 질병등의 형질과 어떤 관계가 있는지 규명해왔다. 특히 이중에서 유전체 입체구조를 이용하면, 원거리 비암호화 지역의 변이의 영향을 확인할수 있다 그러나, 아직 다양한 샘플별로 유전체 입체구조를 규명하기에는 데이터가 부족했고, 유전체 입체구조를 예측하는 모델들이 개발되어왔다. 그러나 이들중 대부분은 전사인자에 의존적이거나, 오직 유전체 상의 변이만 반영했다. 전사인자에 의존적인 모델들은 전사인자 결합정보가 존재하지 않는 대부분의 인체 조직에는 적용할수 없었고, 유전체상의 변이만 반영하는 모델들은 조직간의 다양성을 반영할수 없었다. 연구결과: 이를 해결하기 위해, 본 논문에서는 인체조직 멀티오믹스 데이터를 결합하고, 이를 딥러닝 기법을 거쳐 유전체 입체구조를 예측했다. 그 중간과정으로 공개된 인간유래 샘플 80 여종의 유전체 입체구조와 후성유전체 정보를 수집하고, 이를 통일된 파이프라인으로 처리한 뒤, 시각화를 제공하는 3DIV 데이터베이스를 작성했다. 이렇게 수집된 멀티오믹스 데이터를 바탕으로 유전체 입체구조 중에서 특히 뚜렷한 특징중 하나인 염색질 루프를 예측하는 딥러닝 모델인 DeepLUCIA를 구축했다. 그 결과, DeepLUCIA 는 염색질 루프에 핵심적인 전사인자인 CTCF가 없는 상황에서도 다른 후성유전학적 특질 12개만으로 염색질 루프를 잘 예측하는 것을 확인 하였다. 특히 고전적 기계학습 기법을 이용한 염색질 루프 예측기법인 3DEpiLoop와 비교했을 때, 3DEpiLoop 모델이 대량의 전사인자 정보를 요구함에도 불구하고, 비슷한 성능을 보일 뿐만 아니라, 3DEpiLoop 모델이 다루지 못하는 도메인 사이의 염색질 루프도 예측할수 있음을 보였다. 이렇게 검증된 염색질 루프 예측력을 바탕으로, 실제 인체 조직들을 대상으로 유전체 변이와 형질 사이의 관계를 추정해보았다. 샘플을 얻기 힘든 태아심장 조직에서의 유전체 입체구조를 통해서 Brugada 증후군과 관련된 비암호화 지역의 변이들이 심장 특이적으로 SCN5A 유전자와 물리적으로 상호작용 하는 것을 확인했다. 단핵구와 폐에서의 유전체 입체구조를 통해서 SARS-COV-2 감염증상의 경중도와 관련있는 것으로 알려진 변이들이 CCR 유전자 클러스터의 여러 유전자들과 상호작용하는 것을 확인했다. 또한 간에서의 유전체 입체구조를 통해서 KCNT2 유전자 안에 위차한 노인성황반변성 관련 유전체 변이들의 조절 대상이 KCNT2가 아니라, 보체와 관련된 CFH/CFHR 유전자 클러스터 임을 확인했다. 결론: 최근 유전체 분석 분야에서 나오고 있는 대량의 후성유전체, 유전체 데이터를 수집하고, 특히 유전체 입체구조와 결합해 DB를 구축했고, 이를 바탕으로 최근 각광을 받고 있는 딥러닝 기법을 적용해본 결과, 고전적 기계학습 기반 모델을 사용할수 없는 인체 조직의 유전체 입체구조를 예측하는데 성공했다. 이들 DB와 예측모델은 유전체 입체구조 정보를 직접 획득하기 어려운 대부분의 연구자들에게 비암호화 지역의 변이의 기능을 해석하기 위한 유전체 입체구조의 맥락을 제공할수 있다.

서지기타정보

서지기타정보
청구기호 {DBIS 22001
형태사항 viii, 104 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 양동찬
지도교수의 영문표기 : Dongsup Kim
지도교수의 한글표기 : 김동섭
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 90-93
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서