Designing the reactants that can produce the desired material is an important task in chemical and material science. Since the trial and error approach based on the intuition and experience of experimental experts requires a lot of time and money, many studies to apply deep learning technology for efficient retrosynthesis planning have been reported. To plan an optimal synthesis pathway by searching the large chemical space using the retrosynthesis prediction model, the ability to predict various reactants that yield the desired target product is required. In this work, we propose a training strategy to augment the reaction labels by adding the various chemical reactions to a limited dataset through virtual reaction sampling. Using a new training dataset constructed through this label augmentation, we improved the performance of predicting more diverse reactants that can produce the target molecule. We applied the label augmentation strategy to the previously reported graph and template-based retrosynthesis prediction model, and the retrained model showed an improved top-10 average round-trip accuracy by 8.2%, although the top-10 exact match accuracy was decreased by 4.7%. In addition, we found that the correlation between the prediction score and accuracy was improved.
원하는 물질을 합성할 수 있는 반응물들을 설계하는 것은 화학 및 재료 과학의 중요한 과제이다. 실험연구자들의 직관과 경험에 기반한 시행착오법은 많은 시간과 비용이 소모되기 때문에, 효율적인 역합성 반응 설계를 위하여 딥러닝 기술을 적용하는 연구가 많이 보고되었다. 역합성 예측 모델을 통해 광범위한 화학공간을 조사하여 최적의 합성경로를 설계하기 위해서는, 원하는 타겟 물질을 생성하는 다양한 반응물을 예측할 수 있는 능력이 필요하다. 본 학위논문에서는 가상반응 샘플링을 통해, 제한된 데이터셋에 다양한 화학반응을 추가하여 반응 레이블을 보강하는 학습 전략을 제안한다. 이러한 레이블 보강을 통해 구축한 새로운 학습 데이터셋을 이용하여, 하나의 목표 분자를 합성할 수 있는 더욱 다양한 반응물들을 예측하는 성능을 향상시켰다. 기존에 보고된 그래프 및 템플릿 기반 역합성 예측 모델에 레이블 보강 전략을 적용하였고, 재학습 된 모델은 상위 10개의 예측에 대해 exact match 정확도가 4.7% 감소하였지만 평균 round-trip 정확도가 8.2% 향상되었다. 또한, 모델의 예측점수와 정확도 간의 상관관계가 향상되었음을 확인하였다.