서지주요정보
Modeling retrosynthesis via multi-decoder transformer with set invariant loss = 멀티 디코더 트랜스포머와 집합 불변 손실함수를 이용한 역합성 모델링
서명 / 저자 Modeling retrosynthesis via multi-decoder transformer with set invariant loss = 멀티 디코더 트랜스포머와 집합 불변 손실함수를 이용한 역합성 모델링 / Wonjun Chung.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038369

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 20065

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Retrosynthesis, predicting reactants from a given product, is a demanding problem in the field of organic chemistry. Discovering the synthesis path of a new chemical compound with desired properties is key in materials development. As a molecule can be represented as a sequence of characters describing atoms or bonds using Simplified-Molecular-Input Line-Entry-System (SMILES), recent studies started to cast the problem into a seq2seq translation problem from a product to its reactants and leverage the success of neural machine translation models such as Transformer. However, our target in this “translation” task is not a simple sequence as in the regular language translation task but rather a “set” of reactant sequences. Hence, the quality of predictions should not be assessed by the order of reactants generated and naively applying the standard models without this consideration would bring performance degradation. In this paper, we propose a novel $\textbf{Set Invariant Loss}$ function to train the retrosynthesis model, which promotes the model to learn to predict reactants in an order invariant fashion. We also devise new Transformer architecture called $\textbf{Multi-Decoder Transformer}$ and its ensemble techniques suitable for such set invariant loss. We validate our set invariant loss against standard cross-entropy loss on top of recent Transformer based models and we achieve state-of-the-art performance among the template-free based baselines on the standard benchmark dataset (USPTO-50K).

역합성은 유기화학 분야에서 반응물이 주어졌을 때 반응물을 예측하는 중요한 문제이다. 원하는 물성을 가지고 있는 새로운 화합물의 합성 경로를 발견하는 것이 신물질 개발에 있어서 핵심이다. 분자를 원자와 본드를 의미하는 시퀀스(SMILES)로 표현이 가능하기 때문에, 최근에 역합성 문제를 기계 번역 모델을 이용한 번역 문제로 치환하여 연구가 진행되고 있다. 하지만 역합성은 자연어 번역 처럼 단순히 시퀀스의 번역 문제가 아니라, 반응물 시퀀스의 "집합"을 예측하는 문제이다. 따라서, 모델 예측의 질이 반응물의 생성 순서에 의해 평가 되어서는 안된다. 반응물이 집합이라는 것에 대한 고려없이 단순히 일반 번역 모델을 사용하는 것은 성능 저하를 가지고 올 수 있다. 이 논문에서는 역합성 모델이 반응물의 순서에 상관 없이 예측을 하도록 학습을 시켜줄 새로운 손실 함수인 집합 불변 손실함수를 제안하였다. 또한, 새로운 트랜스포머 구조인 멀티 디코더 트랜스포머와 집합 불변 손실함수에 적합한 앙상블 기술을 고안했다. 트랜스포머 기반의 모델에서 집합 불변 함수의 이점을 일반적인 교차-엔트로피 함수와 비교를 통해 실험적으로 검증을 했고, 기존의 템플릿에 의존하지 않는 최신 모델들과 비교하여 우리 모델이 상대적으로 우수한 성능을 보임을 실험적으로 입증하였다.

서지기타정보

서지기타정보
청구기호 {MCS 20065
형태사항 iv, 33 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정원준
지도교수의 영문표기 : Eunho Yang
지도교수의 한글표기 : 양은호
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 28-31
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서