Strategies to design novel molecules and materials with desired properties are the ultimate goal of chemical research. Reinforcement learning is a machine learning method that learns optimal action for each state using only the reward function without prior knowledge and is drawing attention as a molecular inverse design strategy that goes beyond human intuition. This study proposes a reinforcement learning model that designs molecules using the actions of adhering two rings at the fragment level. In the task of generating a molecule with a designated partition coefficient (logP), it showed higher accuracy than previous models that design molecules at the atomic level, and overcome the problem of creating unstable molecules. In addition, even in the partition coefficient optimization process that took into account the synthetic accessibility score, it showed higher accuracy than the atom-wise model and generated a chemically more stable molecule containing a ring. Our molecular design strategy is expected to be useful in industrial fields that utilize the characteristics of cyclic compounds, such as new drug development or organic light-emitting diodes.
원하는 물성을 가지며 새로운 분자 및 소재를 설계하는 전략은 화학 연구의 궁극적인 목표이다. 강화학습은 사전 지식 없이 보상함수만을 이용해서 각 상태마다 최적의 행동을 학습는 기계학습 방법으로 사람의 직관을 뛰어넘는 분자 역설계 전략으로 주목받고 있다. 본 연구는 단위체 수준에서 두 고리를 이어 붙이는 전략을 활용하여 분자를 설계하는 강화학습 모델을 제안한다. 특정한 분배계수(logP)를 갖는 분자를 생성하는 작업에서 원자 수준에서 분자를 설계하는 기존 모델보다 높은 정확도를 보였고, 불안정한 분자를 생성하는 문제점을 극복했다. 또 합성 접근성 점수까지 고려한 분배계수 최적화 작업에서도 기존 모델보다 더 높은 정확도를 보였고, 고리를 포함하며 화학적으로 더 안정한 분자를 생성했다. 본 분자 설계전략은 신약개발이나 유기 발광다이오드와같이 고리 화합물의 특징을 활용하는 산업 분야에서 유용할 것으로 생각한다.