서지주요정보
Deep convolutional neural networks for peptide-MHC binding predictions = 딥컨볼루션 신경망을 이용한 펩타이드-주조직적합성복합체 결합예측 방법 연구
서명 / 저자 Deep convolutional neural networks for peptide-MHC binding predictions = 딥컨볼루션 신경망을 이용한 펩타이드-주조직적합성복합체 결합예측 방법 연구 / Youngmahn Han.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032631

소장위치/청구기호

학술문화관(문화관) 보존서고

DBIS 18010

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Background: Determining peptides that bind specific MHC molecules can facilitate the development of peptide-based vaccines and design of immunotherapies. Recently, machine-learning-based methods have generated successful results by training large amounts of experimental data. However, many machine learning-based methods are generally less sensitive in recognizing locally-clustered interactions, which can synergistically stabilize peptide binding. Deep convolutional neural network (ConvNet) is a deep learning method inspired by visual recognition process of animal brain and it is known to be able to capture meaningful local patterns from 2D images. Once the peptide-MHC interactions can be encoded into image-like matrix(ILM) data, ConvNets can be employed to build a predictive model for peptide-MHC binding prediction. In this thesis, we demonstrate that ConvNet model are able to not only reliably predict peptide-MHC binding, but also sensitively capture locally-clustered interactions without the prior knowledge of binding modes. Results: For MHC-I, the ConvNet model for pan-specific peptide-HLA-I binding predictions was trained using ILM data encoded from peptide-HLA-I experimental data and showed the reliable performance in nonapeptide binding predictions through the independent evaluation of IEDB external datasets which consist of 43 datasets for 15 HLA-A alleles and 25 datasets for 10 HLA-B alleles. In particular, the model outperformed other tools for alleles belonging to the HLA-A3 supertype. The F1 scores of the DCNN were 0.86, 0.94, and 0.67 for HLA-A*31:01, HLA-A*03:01, and HLA-A*68:01 alleles, respectively, which were significantly higher than those of other prediction tools. We developed ConvMHC, a web server(http://jumong.kaist.ac.kr:8080/convmhc) to provide user-friendly web interfaces for peptide-MHC class I binding predictions using the ConvNet model. For MHC-II, the ConvNet model for pan-specific peptide-HLA-II binding predictions was trained on ILMs encoded from experimental data for the binding of variable length peptides to MHC-II molecules. The nine ConvNet models were trained on the ILM datasets encoded using different amino acid encoding schemes. The ConvNet model showed the reliable prediction performance through the independent evaluation on external datasets covering 13 HLA-DR alleles. In particular, we report that the ConvNet model outperformed the NetMHCIIpan method in predicting the 18-mer peptide KKAGLVGVLAGLAFQEMD-binding to four different HLA-DR alleles, including HLA-DRB1*11:01, HLA-DRB1*13:01, HLA-DRB3*03:01, and HLA-DRB4*01:03. Conclusions: We developed a novel method for pan-specific peptide-MHC binding prediction using the ConvNet prediction model trained on ILM data encoded from experiment data. We showed the reliable performance of the ConvNet models in predicting both the peptide-MHC-I bindings and peptide-MHC-II bindings. We anticipate that our ConvNet models will be significantly reliable in predicting peptide binding to MHC molecules through further evaluations on more experimental data. Moreover, our approaches described herein will be useful for recognizing locally-clustered interactions without the prior knowledge of binding modes in molecular binding structures, such as protein/DNA, protein/RNA, and drug/protein interactions.

연구배경: 특정 MHC 분자들에 결합하는 항원으로부터 유래된 펩타이드들을 식별하는 것은 T 세포 항원결정기(epitope)를 결정의 필요 조건이며, 펩타이드 기반 백신 개발과 면역치료 설계를 촉진시킬 수 있다. 최근에는 많은 수의 실험데이터의 학습을 통한 기계학습을 기반의 펩타이드 결합 예측 방법들이 성공적인 결과들을 보여주고 있다. 일반적으로, 많은 기계학습 기반의 방법들은 펩타이드 결합과 연관된 특징(feature)들을 독립적으로 학습하기 때문에 협동적으로 펩타이드의 안정한 결합을 유도할 수 있는 국소적으로 군집화 된 상호작용 패턴을 학습하는데 덜 민감할 수 있다. 딥컨볼루션 신경망(ConvNet: deep convolutional neural network)은 동물의 시각적 인식 과정을 모사한 심화 학습(deep learning) 방법이다. ConvNet은 2차원 이미지 상의 국소적 연결 패턴(local motif)를 인식하는데 매우 효과적인 방법으로 알려져 있다. 펩타이드와 MHC 분자의 상호작용들을 이미지 유사 행렬(ILM: Image-Like Matrix)로 인코딩하면, ConvNet을 사용하여 펩타이드와 MHC 분자의 결합 예측을 위한 예측 모델을 구축할 수 있다. 본 학위 논문에서는, ConvNet 예측 모델이 펩타이드-MHC 결합 예측에 있어 신뢰할 만한 성능을 보일 뿐만 아니라 국소적으로 군집된 상호작용 패턴들을 펩타이드의 결합 모드(binding mode)에 대한 사전 제약없이 효과적으로 인지할 수 있다는 것을 보이고자 한다. 연구결과: 첫번재 연구는 MHC-I 분자에 결합하는 펩타이드의 범용적 예측을 위한 ConvNet 예측 모델의 구축방법에 대한 것이었다. 펩타이드와 인간 MHC-I (HLA-I: Human Leukocyte Antigen class I) 분자의 결합 실험데이터부터 인코딩 된 ILM 데이터를 학습하여 ConvNet 예측모델을 구축하였다. 학습된 ConvNet 모델을 15개 HLA-A 유전형과 25개 HLA-B 유전형에 대한 외부 데이터를 사용하여 독립 평가를 수행한 결과, 신뢰할 만한 예측 성능을 보여주었다. 특히, HLA-A3 슈퍼유전형에 대한 데이터에 대한 벤치마크에서, 다른 예측방법들보다 유의하게 높은 예측 성능을 보여주었는데, 이는 HLA-A3 슈퍼유전형에 속하는 HLA-A*31:01, HLA-A*03:01, 그리고 HLA-A*68:01 분자들과 펩타이드 간 결합에서의 국소적으로 군집된 상호작용 패턴을 ConvNet 모델이 우세하게 인지할 수 있었기 때문이었음을 검증하였다. 이는 세개의 펩타이드-HLA-A3 결합복합체(KVFGPIHEL-HLA-A*31:01, RAAPPPPPR-HLA-A*03:01, 그리고 LPQWLSANR-HLA-A*68:01)로부터 인코딩 된 ILM들에서 ConvNet에 의해 포착된 결합 기여도가 높은 픽셀들(informative pixels)을 식별함으로써 확인되었다. 학습된 ConvNet 모델을 사용하여 펩타이드-MHC-I 결합 예측을 위한 ConvMHC 웹서버(http://jumong.kaist.ac.kr:8080/convmhc)를 개발하였다. 두번재 연구는 MHC-II 분자에 결합하는 다양한 길이의 펩타이드의 범용적 예측을 위한 ConvNet 예측 모델의 구축 방법에 대한 것이다. 펩타이드-MHC-II 결합데이터로부터 서로 다른 아미노산 인코딩 방식으로 생성된 ILM 데이터를 학습하여 9개의 ConvNet 예측 모델을 구축하였다. 각각의 예측모델은 5-fold 교차 검증으로 예측 성능이 평가되었다. 최종 ConvNet 예측 모델은 13개의 HLA-DR 유전형을 포함한 외부 데이터를 사용한 독립평가에서 신뢰할 만한 예측 성능을 보여주었다. 특히, 4개의 HLA-DR 유전형에 대한 펩타이드(KKAGLVGVLAGLAFQEMD)의 결합 예측에 있어 NetMHCIIpan 방법보다 매우 우세한 예측 성능을 보여 주었다. 결론: 본 연구에서는 실험데이터로부터 인코딩된 ILM을 학습한 ConvNet 예측모델을 통한 범용적 펩타이드-MHC 결합 예측 방법을 제안하였다. 학습된 ConvNet 예측 모델은 펩타이드-MHC-I 결합과 펩타이드-MHC-II 결합 예측에 있어 신뢰할 만한 성능을 보여주었다. 제안된 ConvNet 예측 모델은 더 많은 실험데이터에 대한 학습과 평가를 통해 펩타이드-MHC 결합 예측에 있어 더욱 신뢰할 만한 성능을 보여줄 것이라 기대된다. 또한, 이 논문에서 제안한 방법들은 protein/DNA, protein/RNA, 그리고 drug/protein등의 분자 결합 연구에 있어서의 구조적 분석들과 함께 결합모드의 사전 제약 없이 국소적으로 군집화된 상호작용 패턴들을 이해하는 데 유용할 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DBIS 18010
형태사항 viii, 90 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한영만
지도교수의 영문표기 : Dongsup Kim
지도교수의 한글표기 : 김동섭
수록잡지명 : "Deep convolutional neural networks for pan-specific peptide-MHC class I binding prediction". BMC Bioinformatics, v. 18, no. 1, pp. 585(2017)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 78-86
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서