Identifying the binding of molecules and targets is essential in drug discovery. Recently, studies using deep learning have been presented to reduce the cost of this process. Since the amount of experimental data in molecules is small, studies introducing a multi-task learning method have been published. In this study, a form of learning similar targets together based on the chemical similarity between the ligand sets of the target to be predicted was applied in the model for predicting the binding of molecules to the target. We looked into whether this method could improve performance over a single task-learning method. As a result, it was found that this multi-task learning method improves the average performance of the model, especially for targets that the model did not predict well. Furthermore, by applying the knowledge distillation technique, we examined whether this method improves performance in predicting the binding of molecules. As a result, the multi-task learning model, which received knowledge from a single work learning model, showed the highest performance.
분자와 표적단백질의 결합을 알아내는 것은 신약 개발에 있어 중요한 과정이지만 많은 시간과 비용을 필요로 한다. 이에 딥러닝을 비롯한 여러 모델링을 사용하여 이를 예측하는 방법들이 여러 개발되었다. 분자의 실험 데이터는 양이 적다는 단점이 있어 이를 보완하는 방법으로 다중 작업 학습 방식을 도입한 연구들이 발표되었다. 본 연구에서는 표적에 대한 분자의 결합을 예측하는 모델에 예측하려는 표적의 리간드 집합 사이의 화학적 유사도를 기반으로 유사한 표적끼리 같이 학습하는 방식을 적용하였다. 이 방식이 단일 작업 학습 방식보다 성능을 높일 수 있는지 알아보았다. 그 결과 이러한 다중 작업 학습 방식이 모델의 평균적인 성능을 높인다는 결과를 얻었고 특히 모델이 잘 예측하지 못했던 표적에 대하여 성능 향상 효과가 크다는 것을 확인하였다. 더 나아가 지식 증류 기법을 적용하여 이 방식이 분자의 결합을 예측에도 성능 향상의 효과가 있는지 알아보았다. 그 결과 단일 작업 학습 모델로부터 지식을 받은 다중 작업 학습 모델이 가장 높은 성능을 보였다.