The ability to treat 3D data or point clouds has tremendously impacted various applications. Proteins are functional components in biological processes that comprise amino acid residues linked by peptide bonds. Linear polypeptides fold into a specific 3D structure and form a complex with other proteins or biomolecules for their cellular functions. Predicting whether two proteins interact, also known as protein-protein interactions (PPI), is a fundamental challenge in biomedical fields. Here, we propose PPI-BERT, a pre-trained Transformer to learn PPI using protein sequences and structures repre- sented as heterogenous point clouds. Our model uses a rotation invariant method to obtain a canonical representation of protein structures and segments them into fragments of fixed amino acid lengths while retaining information regarding atom positions and amino acid classes. This “sequence-structure” representation is used to train a tokenizer that learns discrete token IDs to optimize the sequence and structure reconstruction. Masked modeling is used to train the Transformer encoder model on tokenized fragments. Our self-supervised model was trained on protein complex structures (N=85,885) from the Protein Data Bank. Evaluation shows that our model outperforms existing methods in two critical PPI downstream tasks: binding and interface region predictions. These results are an important step toward developing computational models for PPI applications such as drug discovery.
3차원 데이터 또는 점구름을 처리하는 능력은 다양한 응용 분야에 엄청난 영향을 미쳤습니다. 단백질은 아미노산이 펩타이드 결합으로 연결된 생물학적 과정에서의 기능적인 구성 요소로, 선형 폴리펩타이드는 특정한 3차원 구조로 접히며 다른 단백질이나 생체 분자와 복합체를 형성하여 세포 기능을 수행합니다. 두 개의 단백질이 상호 작용하는지 예측하는 것, 즉 단백질-단백질 상호작용은 생물의학 분야에서 기본적인 과제입니다. 여기서 저희는 PPI-BERT를 제안합니다. 이는 단백질 서열 및 구조를 점구름로 나타내어 단백질-단백질 상호작용을 학습하는 사전 훈련된 트랜스포머입니다. 이 모델은 단백질 구조의 정규 표현을 얻기 위해 회전 등가방법을 사용하고, 이를 고정된 아미노산 길이의 단편으로 분할하여 원자 위치 및 아미노산 종류에 관한 정보를 보존합니다. 이 '서열-구조' 표현은 토크나이저를 훈련시키기 위해 사용되며, 토큰화된 단편에 대한 서열 및 구조 재구성을 최적화하기 위해 이산 토큰 아이디를 학습합니다. 마스크 모델링을 사용하여 트랜스포머 인코더 모델을 토큰화된 단편에 대해 훈련시킵니다. 이 자기 지도 모델은 Protein Data Bank의 단백질 복합체 구조(N=85,885)에서 훈련되었습니다. 실험 결과는 저희 모델이 두 가지 중요한 단백질-단백질 상호작용 문제들에서 기존 방법을 능가한다는 것을 보여줍니다. 이러한 결과는 약물 개발과 같은 단백질-단백질 상호작용 응용 프로그램을 위한 계산 모델 개발로 나아가는 중요한 한 걸음입니다.