서지주요정보
Prediction of mutation effects using a deep temporal convolutional neural network = 딥 템포럴 컨볼루션 신경망을 이용한 돌연변이 영향 예측 연구
서명 / 저자 Prediction of mutation effects using a deep temporal convolutional neural network = 딥 템포럴 컨볼루션 신경망을 이용한 돌연변이 영향 예측 연구 / Ha Young Kim.
저자명 Kim, Ha Young ; 김하영
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8035680

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MBIS 20006

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Accurate prediction of the effects of genetic variation is a major goal in biological research. Towards this goal, numerous machine learning models have been developed to learn information from evolutionary sequence data. The most effective method so far is a deep generative model based on the variational autoencoder that models the distributions using a latent variable. In this study, we propose a deep autoregressive generative model based on a Temporal Convolutional Network architecture, which employs dilated causal convolutions and attention mechanism for the modeling of inter-residue correlations in a biological sequence. We show that this model is competitive with the variational autoencoder model when tested against a set of 42 deep mutational scan experiments. In particular, our model can more efficiently capture information from multiple sequence alignments with lower effective number of sequences, such as in viral sequence families, compared to the latent variable model. Also, we extend this architecture to a semi-supervised learning framework, which shows high prediction accuracy. We show that our model enables a direct optimization of the data likelihood and allows for a simple and stable training process.

돌연변이의 영향 예측은 생물학 분야에서 중요한 연구 주제이다. 이를 위해 진화적 서열 데이터로부터 정보를 학습하는 기계학습 모델들이 현재까지 많이 개발되어 왔다. 그 중 가장 정확도가 높은 모델은 심층 생성 모델의 하나인 Variational Autoencoder에 기반한 모델이다. 이 연구에서는 다른 종류의 심층 생성 모델인 deep autoregressive generative model을 이용하여 단백질 서열의 잔기 간 연관성을 학습한다. 이 모델은 템포럴 컨볼루션 신경망(temporal convolutional network)을 기반으로 한 구조를 가지며, 확장 인과 컨볼루션(dilated causal convolution)과 어텐션 메커니즘을 이용한다. 모델의 성능을 돌연변이 심층 스캐닝 실험 데이터로 평가하였을 때 Variational Autoencoder 모델과 비슷한 성능을 보이며, 특히 바이러스 단백질군과 같이 다중서열정렬의 다양성이 낮은 경우에 훨씬 좋은 성능을 보이는 것을 확인하였다. 또한 해당 심층 생성 모델을 확장하여 반지도 학습 모델을 개발하여 좋은 성능을 보이는 것을 확인하였다. 이 모델은 데이터의 우도를 직접적으로 최적화하며, 구현이 단순하고 학습이 안정적인 장점을 가지고 있다.

서지기타정보

서지기타정보
청구기호 {MBIS 20006
형태사항 iv, 33 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김하영
지도교수의 영문표기 : Dongsup Kim
지도교수의 한글표기 : 김동섭
수록잡지명 : "Prediction of mutation effects using a deep temporal convolutional network". Bioinformatics,
학위논문 학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 29-31
주제 protein sequence analysis
mutation effect
deep learning
generative model
temporal convolutional network
단백질 서열 분석
돌연변이 영향
딥러닝
생성 모델
템포럴 컨벌루션 신경망
QR CODE qr code