Drug mechanism information enhances the performance and interpretability of predictive models for drug efficacy and side effects. However, the number of compounds with structured drug mechanism information provided by existing drug mechanism databases is insufficient for computational drug discovery. In particular, PubChem BioAssay offers a wealth of substances with extensive drug mechanism information; however, a challenge arises from the fact that this information is presented in natural language. In this thesis, we develop a drug mechanism text mining method to extract drug mechanisms from the literature information within PubChem BioAssay. Through this approach, we construct a database providing substances with structured drug mechanisms and confirm our ability to supply drug mechanism information for compounds without existing data and additional information for compounds with pre-existing drug mechanisms. Moreover, we propose subsequent research to develop predictive models for drug efficacy and side effects using the established drug mechanism database.
약물 기전 정보는 약물의 효능 및 부작용 예측 모델의 성능 향상 및 설명력을 제공한다. 그러나 기존의 약물 기전 데이터베이스에서 제공되는 정형화된 약물 기전 정보를 보유한 화합물의 수는 컴퓨터 기반 약물 개발에 있어 부족하다. 특히, PubChem BioAssay에서는 많은 약물 기전 정보를 보유한 화합 물질을 제공하지만, 약물 기전 정보를 자연어 형태로 제공하는 문제점이 있다. 본 학위 논문에서는 약물 기전 텍스트 마이닝 방법을 개발하여 PubChem BioAssay의 문헌 정보에서 약물 기전을 마이닝 하고, 이를 통해 정형화된 약물 기전 보유 화학물을 제공하는 데이터베이스를 구축한다. 구축한 약물 기전 데이터베이스를 통해 기존 약물 기전 정보를 활용하지 못하는 화합물에 대한 약물 기전 정보를 제공하고, 이미 기전 정보를 보유한 화합물에 대해서도 추가적인 약물 기전 정보를 보유한 것을 확인 하였다. 또한 구축한 약물 기전 데이터베이스를 활용하여 약물 효능 및 부직용을 예측하는 모델 개발에 대한 후속 연구를 제안한다.