서지주요정보
PPI-BERT: Pretraining transformers with masked sequence-structure of protein fragments for learning protein-protein interactions = PPI-BERT: 단백질-단백질 상호작용 학습을 위한 마스크된 서열-구조의 단백질 단편 구성의 사전 학습된 트랜스포머
서명 / 저자 PPI-BERT: Pretraining transformers with masked sequence-structure of protein fragments for learning protein-protein interactions = PPI-BERT: 단백질-단백질 상호작용 학습을 위한 마스크된 서열-구조의 단백질 단편 구성의 사전 학습된 트랜스포머 / Hyunkyu Jung.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042259

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MCS 24020

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The ability to treat 3D data or point clouds has tremendously impacted various applications. Proteins are functional components in biological processes that comprise amino acid residues linked by peptide bonds. Linear polypeptides fold into a specific 3D structure and form a complex with other proteins or biomolecules for their cellular functions. Predicting whether two proteins interact, also known as protein-protein interactions (PPI), is a fundamental challenge in biomedical fields. Here, we propose PPI-BERT, a pre-trained Transformer to learn PPI using protein sequences and structures repre- sented as heterogenous point clouds. Our model uses a rotation invariant method to obtain a canonical representation of protein structures and segments them into fragments of fixed amino acid lengths while retaining information regarding atom positions and amino acid classes. This “sequence-structure” representation is used to train a tokenizer that learns discrete token IDs to optimize the sequence and structure reconstruction. Masked modeling is used to train the Transformer encoder model on tokenized fragments. Our self-supervised model was trained on protein complex structures (N=85,885) from the Protein Data Bank. Evaluation shows that our model outperforms existing methods in two critical PPI downstream tasks: binding and interface region predictions. These results are an important step toward developing computational models for PPI applications such as drug discovery.

3차원 데이터 또는 점구름을 처리하는 능력은 다양한 응용 분야에 엄청난 영향을 미쳤습니다. 단백질은 아미노산이 펩타이드 결합으로 연결된 생물학적 과정에서의 기능적인 구성 요소로, 선형 폴리펩타이드는 특정한 3차원 구조로 접히며 다른 단백질이나 생체 분자와 복합체를 형성하여 세포 기능을 수행합니다. 두 개의 단백질이 상호 작용하는지 예측하는 것, 즉 단백질-단백질 상호작용은 생물의학 분야에서 기본적인 과제입니다. 여기서 저희는 PPI-BERT를 제안합니다. 이는 단백질 서열 및 구조를 점구름로 나타내어 단백질-단백질 상호작용을 학습하는 사전 훈련된 트랜스포머입니다. 이 모델은 단백질 구조의 정규 표현을 얻기 위해 회전 등가방법을 사용하고, 이를 고정된 아미노산 길이의 단편으로 분할하여 원자 위치 및 아미노산 종류에 관한 정보를 보존합니다. 이 '서열-구조' 표현은 토크나이저를 훈련시키기 위해 사용되며, 토큰화된 단편에 대한 서열 및 구조 재구성을 최적화하기 위해 이산 토큰 아이디를 학습합니다. 마스크 모델링을 사용하여 트랜스포머 인코더 모델을 토큰화된 단편에 대해 훈련시킵니다. 이 자기 지도 모델은 Protein Data Bank의 단백질 복합체 구조(N=85,885)에서 훈련되었습니다. 실험 결과는 저희 모델이 두 가지 중요한 단백질-단백질 상호작용 문제들에서 기존 방법을 능가한다는 것을 보여줍니다. 이러한 결과는 약물 개발과 같은 단백질-단백질 상호작용 응용 프로그램을 위한 계산 모델 개발로 나아가는 중요한 한 걸음입니다.

서지기타정보

서지기타정보
청구기호 {MCS 24020
형태사항 iv, 29 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정현규
지도교수의 영문표기 : Meeyoung Cha
지도교수의 한글표기 : 차미영
공동지도교수의 영문표기 : Homin Kim
공동지도교수의 한글표기 : 김호민
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 25-27
주제 Protein structure
Geometric deep learning
Unsupervised learning
Pre-trained model
Masked model
단백질 구조
기하적 심층 학습
비지도 학습
사전 훈련된 모델
마스크 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서