Prediction of protein-ligand interactions is a critical step during the initial phase of drug discovery. I have developed a novel deep-learning-based prediction model based on a graph convolutional neural network estimating the protein-ligand binding affinity. Graph convolutional neural networks extract features more efficiently with reduced the computational time and resources that are normally required by the traditional convolutional neural network models. The protein-ligand complex is described as a graph that can be constructed with nodes and edges. The model utilizes graph convolution using multiple adjacency matrices whose entries are affected by distances, and a feature matrix that describes the molecular properties of the atoms. The model for protein-ligand binding affinities was tested on the PDBbind datasets and proved the accuracy and the efficiency of the graph convolution. The computational efficiency of graph convolutional neural networks enables data augmentation with docking simulation. I found that data augmentation with docking simulation data could improve the prediction accuracy when the generated structures are accurate and the number of docking structure is sufficient. The high prediction performance and speed of the graph convolutional neural network model suggest that such networks can serve as valuable tools in drug discovery.
단백질-리간드 간의 상호작용 예측은 약물 개발의 초기 단계에서 매우 중요하다. 본 연구에서는 단백질-리간드의 결합도를 예측하는 그래프 컨볼루션 신경망을 기반으로 한 새로운 딥러닝 모델을 개발하였다. 그래프 컨볼루션 신경망은 기존 컨볼루션 신경망 모델에서 일반적으로 필요로 하는 계산 시간 및 자원을 줄여, 보다 효율적으로 데이터의 특징들을 추출한다. 단백질-리간드 복합체는 노드와 에지로 구성되는 그래프로 표현된다. 이 모델은 거리에 따른 정보를 가진 여러 개의 인접 행렬과 분자의 특성을 표현하는 특징 행렬을 통하여 그래프 컨볼루션을 활용한다. 단백질-리간드 결합도를 예측하는 본 모델은 PDBbind 데이터베이스에서 검증되었으며, 그래프 컨볼루션의 정확성과 효율성을 입증하였다. 그래프 컨볼루션 신경망의 계산 효율성은 도킹 시뮬레이션을 통한 데이터 증강 기법을 가능하도록 한다. 도킹 시뮬레이션 데이터로부터 생성된 구조가 정확하고 도킹된 구조의 수가 충분할 때, 도킹 시뮬레이션 데이터을 사용한 데이터 증강 기법이 예측 정확도를 향상시킬 수 있다는 것을 발견하였다. 그래프 컨볼루션 신경망 모델의 높은 예측 성능과 속도는 이 기술이 약물 개발에 있어 중요한 역할을 할 수 있다는 것을 시사한다.