서지주요정보
Construction of explainable deep learning architectures for molecular graphs = 분자 그래프를 위한 심층학습 아키텍쳐 및 설명가능성에 관한 연구
서명 / 저자 Construction of explainable deep learning architectures for molecular graphs = 분자 그래프를 위한 심층학습 아키텍쳐 및 설명가능성에 관한 연구 / Hyeoncheol Cho.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038362

소장위치/청구기호

학술문화관(문화관) 보존서고

DCH 20038

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Prediction of physical properties and biological activities from a molecular structure of a compound has been a large interest of chemists, and researches for searching new methodology with better prediction accuracy and efficiency have been continued for a long time. Traditionally, physicochemical understanding of the molecule through ab initio quantum chemistry methods and rule-based expert systems built on past experiences were used for the prediction of the properties. However, deep learning that has been adopted in fields of chemistry in recent 5 years has shown its strength on both accuracy and swiftness when predicting the desired properties and revolutionized the strategy to solve problems in chemistry. Especially, the graph-based deep learning methods, utilizing molecular graphs rather than knowledge-based molecular fingerprints, learn the relationship between molecular structures and properties directly and provide highly accurate predictions on newly shown molecules. Therefore herein, we explore the possible improvements in molecular graphs and corresponding deep-learning architectures for efficient utilization of deep learning in chemistry and seek explainability when predicting from the structures. Molecular structures consisted of atoms and bonds can be intuitively converted into graph structure defined by nodes and edges. Consequently, the representation learning of molecular structures encoded in molecular graphs has been explored and recently proved its better performance compared to other deep learning methods. However, three-dimensional information such as conformers and orientations of the molecules were lost when converting into the molecular graphs, because the graphs were basically two-dimensional structures. To overcome the limitation of traditional molecular graphs, we investigated an extension of molecular graphs for possessing three-dimensional information and developed a corresponding graph neural network for learning the 3D information. Our proposed graph neural network on 3D graph representations showed an enhanced prediction of physical properties and biochemical activities when compared to the traditional graph neural networks, even exceeding the chemical accuracy on prediction task of hydration free energies. Moreover, when trained with three-dimensional molecular structures and their activities on inhibition of an enzyme, molecules with an appropriate orientation to the enzyme were predicted to be an active inhibitor, whereas different orientations of the same molecule were predicted to be less effective. Protein-ligand interaction is an important concept in pharmacochemistry, which seeks an understanding of the interaction between ligand molecules with their target proteins and their affinities. Approaches to predict protein-ligand interaction with the graph-based deep learning methods have earned wide interest, however, the fact that prediction relies on two independent molecules and governed by noncovalent interaction made the development of prediction models difficult. In this research, we developed a graph neural network that learns two molecular graphs representing the noncovalent interaction and the covalent interaction sequentially and analyzed the influence of noncovalent interaction on the prediction of binding affinity of the complex. For efficient training of the model, we restricted the protein structure into a smaller pocket which is the neighborhood of the ligand and found the 5 Å range cutoff was most effective. The noncovalent interaction was found to be exceedingly important compared to the covalent interaction on the prediction of binding affinity. These findings indicate the graph-based models can be applied to diverse problems in chemistry beyond the prediction of molecular properties within a single molecule by appropriate construction of the molecular graph. Finally, for applying deep learning models in real-world problems, understanding of the evidence and consistency of the prediction is necessary along with good accuracy. Deep learning models are vulnerable to improper training that shows good averaged performance but relies on fragmentary knowledge due to the opacity of the model. To overcome the risk of misguided training, we adopted explainability techniques on the aforementioned graph neural networks and evaluated the basis of the predictions. By visualizing atomic influences on the predicted properties with a heat map, we observed hydroxyl groups and amine groups contribute mostly to the solubility of a molecule, which is in a good agreement with chemical knowledge. Especially, information on the existence of carbon rings and hydrogen bonds included in the graph representation had a high influence on the accuracy of the prediction. When trained with protein-ligand complexes and their binding affinities, relevance for each atom showed a good correlation with the hydrogen bond patterns expected by the chemistry knowledge between the ligand and the protein. Our experiments indicate the promising future of the graph neural networks and their explainability analysis on applications for problems in multiple fields of chemistry.

화합물의 분자 구조로부터 그 물리적 성질 및 생물학적 기능을 예측하는 것은 화학자들의 주요한 관심 중 하나로, 보다 정확하면서도 효율적인 예측 방법을 찾기 위한 연구가 오랜 기간 동안 이루어져 왔다. 전통적으로 분자의 성질 예측에 사용되어 온 방법은 제일원리 계산을 통해 분자에 대한 물리화학적인 이해를 도모하거나, 경험을 통해 축적된 규칙 기반 시스템을 활용하여 예측하는 방법이었다. 그러나 최근 5년 사이 화학에 도입되기 시작한 심층학습(deep learning)은 정확성과 효율성 두 가지 장점을 모두 보여주며 화학 및 관련 분야의 문제들에 대해 새로운 접근법을 제시하였다. 특히, 여러 심층학습 방법 중 그래프를 이용한 딥러닝은 기존 지식에 기반한 분자 지문 등의 정보 없이 분자 그래프(molecular graph)와 성질 간의 연관성을 직접 학습하여 새로운 분자에 대해서도 즉각적으로 높은 정확성의 예측을 제공할 수 있는 유용한 방법이다. 따라서 본 연구에서는 화학 분야에서 효과적으로 심층학습을 활용하기 위하여 기존 분자 그래프 및 심층학습 아키텍쳐에 대한 개선 방법을 찾고, 예측 과정에서의 설명가능성을 탐구하고자 하였다.분자 구조는 원자와 결합으로 구성되어 있기에 노드(node)와 엣지(edge)로 정의되는 그래프 형태로 직관적이고 손쉬운 변환이 가능하다. 그에 따라 분자를 분자 그래프로 표현하고, 이를 학습하는 그래프 심층학습 방법이 대두되었으며, 최근 성능 면에서도 다른 심층학습 방법과 비교하여 더욱 효과적임이 보고되어 부각되고 있다. 한편, 분자 그래프는 기초적으로 2차원 구조이기에 분자의 컨포머(conformer)나 배향과 같은 3차원 정보는 누락되게 된다. 본 연구에서는 분자 그래프를 확장하여 분자의 3차원 구조 정보를 온전하게 포함할 수 있도록 변형하였고, 이를 학습할 수 있는 그래프 심층학습 모델을 개발하여 분석하였다. 3차원으로 확장된 그래프 심층학습 모델은 기존의 그래프 심층학습 모델과 비교하여 물성 예측에서 화학적 정밀성(chemical accuracy) 이상으로 향상된 예측 성능을 보였으며, 분자의 생물학적 활성 예측 또한 정밀하게 이루어지는 것을 확인하였다. 특히 기존 모델에는 불가능하였던 분자의 3차원 배향에 따른 효소 저해 능력을 학습시킨 결과, 저해제가 올바른 배향을 나타내는 경우에만 저해 능력이 존재함으로 예측하고, 이 외에는 저해 능력이 떨어지는 것으로 예측함을 관찰할 수 있었다. 단백질-리간드 상호작용(protein-ligand interaction)은 약리화학에서 매우 중요하게 다루어지는 문제로, 약물 분자가 표적 단백질과 어떠한 상호작용을 하는지 및 결합 세기에 대해 분석, 예측하는 것이 큰 과제이다. 그래프 심층학습을 활용하여 단백질-리간드 상호작용을 예측하고자 하는 노력은 많은 각광을 받았으나, 물성 예측과는 달리 2개의 분자에 기반한 예측이 요구되며 비결합성 상호작용(noncovalent interaction)에 의해 지배되는 성질인 점이 예측 모델 개발을 어렵게 하였다. 본 연구에서는 비결합성 상호작용과 결합성 상호작용(covalent interaction)을 두 개의 분자 그래프로 나누어 순차적으로 학습하는 그래프 심층학습 모델을 개발하여 비결합성 상호작용이 결합 능력 예측에 미치는 영향을 분석하였다. 학습의 효율성을 높이고자 비결합성 상호작용을 리간드 주변으로 한정 지은 결과, 5Å의 거리 제한에서 가장 효과적으로 학습 및 예측이 이루어질 수 있는 것을 밝혀 내었으며, 결합 능력 예측에서 비결합성 상호작용이 결합성 상호작용에 비해 월등히 높은 영향력을 지님을 확인할 수 있었다. 이는 그래프 심층학습이 적절한 분자 그래프의 선택에 따라 단분자의 물성 예측을 넘어 다양한 화학 문제에도 적용 가능하다는 점을 시사한다.마지막으로, 심층학습의 실제 활용을 위해서는 높은 정밀성의 성질 예측 능력뿐만 아니라 예측이 기반하고 있는 근거와 일관성이 매우 중요하다. 특히, 심층학습은 불투명성으로 인해 올바르지 않은 패턴 학습에 취약하여 성능적으로는 정상적으로 동작하는 것으로 관찰되어도 개별 분자에 대한 예측은 옳지 못한 근거에 기반하고 있을 가능성이 존재한다. 이를 극복하기 위하여 설명 가능한 인공지능(explainable AI) 기술을 앞선 그래프 심층학습에 활용해 분자에 대한 예측이 어떠한 근거에 기반하여 이루어졌는지 분석하였다. 먼저 분자의 용해도 예측 문제에서 개별 분자에 대한 예측이 어떠한 원자에서 기인하는지 히트맵(heat map)으로 시각화한 결과, 화학적 지식과 동일하게 하이드록시기(hydroxyl group) 및 아민기(amine group)가 용해도에 많은 영향을 주고 있음을 관찰할 수 있었다. 특히 입력으로 사용된 그래프 정보에서 탄소 고리 유무와 수소결합 여부 정보가 예측의 정확성에 매우 큰 영향을 주는 것을 확인하였다. 단백질-리간드 상호작용의 예측 문제에서는, 지식에 기반한 단백질과 리간드 사이에서 이루어지는 수소결합 패턴과 비교하였을 때 매우 유사한 연관성이 관찰되었으며 추후 그래프 심층학습을 여러 화학 문제들에 적용할 때 신뢰성을 제공할 근거로의 가능성을 보여주었다.

서지기타정보

서지기타정보
청구기호 {DCH 20038
형태사항 viii, 51 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 조현철
지도교수의 영문표기 : Insung S. Choi
지도교수의 한글표기 : 최인성
수록잡지명 : "Enhanced Deep-Learning Prediction of Molecular Properties via Augmentation of Bond Topology". ChemMedChem , v. 14, no. 17, pp. 1604-1609(2019)
수록잡지명 : "Deep Learning Algorithm of Graph Convolutional Network: A Case of Aqueous Solubility Problems". Bulletin of the Korean Chemical Society, v. 40, no. 6, pp. 485-486(2019)
학위논문 학위논문(박사) - 한국과학기술원 : 화학과,
서지주기 Including references
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서