We propose a Molecular Hypergraph Convolutional Network (MolHGCN) that predicts the molecular properties of a molecule using the atom and functional group information as inputs. Molecules can contain many types of functional groups, which will affect the properties the molecules. For example, the toxicity of a molecule is associated with toxicophores, such as nitroaromatic groups and thiourea. Conventional graph-based methods that consider the pair-wise interactions between nodes are inefficient in expressing the complex relationship between multiple nodes in a graph flexibly, and applying multi-hops may result in oversmoothing and overfitting problems. Hence, we propose MolHGCN to capture the substructural difference between molecules using the atom and functional group information. MolHGCN constructs a hypergraph representation of a molecule using functional group information from the input SMILES strings, extracts hidden representation using a two-stage message passing process (atom and functional group message passing), and predicts the properties of the molecules using the extracted hidden representation. We evaluate the performance of our model using Tox21, ClinTox, SIDER, BBBP, BACE, ESOL, FreeSolv and Lipophilicity datasets. We show that our model is able to outperform other baseline methods for most of the datasets. We particularly show that incorporating functional group information along with atom information results in better separability in the latent space, thus increasing the prediction accuracy of the molecule property prediction.
본 논문은 분자 구조와 화학적 작용기를 활용해 분자의 특성을 예측하는 하이퍼 그래프 신경망 (MolHGCN)을 제안한다. 분자는 여러개의 원자와 작용기로 구성되며, 특히 작용기는 분자의 화학적 특성을 결정하는데 큰 영향을 미친다. 예를 들어, 특정 분자의 독성은 nitroaromatic, thiourea, 등과 같은 독소 작용기와 관련이 있다. 따라서, 각 노드 (원자) 간의 연결 관계만을 고려하는 일반적인 그래프 심층망은 분자 구조로부터 분자의 특성을 예측하는데 구조적 한계를 지닌다. 이에 따라 본 논문에서 제안하는 MolHGCN은 기존의 그래프 심층 신경망의 각 노드간의 연결관계를 고려하는 것에 더불어 화학적 작용기의 특성을 고려하여 분자의 특성을 예측한다. MolHGCN 은 분자구조로부터 작용기를 하이퍼에지로 하는 하이퍼그래프를 생성하고,생성된 하이퍼 그래프로부터 하이퍼 그래프 컨볼루션을 활용해 유의미한 특징치를 추출한 후, 그 특징치를 활용해 분자의 특성을 예측한다. MolHCN 은 Tox21, ClinTox, SIDER, BBBP, BACE, ESOL, FreeSolvand Lipophilicity 의 다양한 데이터셋에서 기존 그래프 신경망 보다 우세한 성능을 보였다. 또한, 다양한 실험을 통해 분자구조와 화학적 작용기를 동시에 고려하는 MolHGCN 방식이 대다수의 데이터셋에서 더 좋은 예측성능을 보임을 확인했다.