서지주요정보
FP2VEC : new molecular featurizer inspired by natural language processing = FP2VEC : 자연어 처리를 활용한 새로운 분자 표현식
서명 / 저자 FP2VEC : new molecular featurizer inspired by natural language processing = FP2VEC : 자연어 처리를 활용한 새로운 분자 표현식 / Woosung Jeon.
저자명 Jeon, Woosung ; 전우성
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033621

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MBIS 19008

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

The quantitative structure-activity relationship (QSAR) models are regression or classification models to predict the chemical properties of compounds. An exact prediction of QSAR models can save time and costs compared with actual experiments. For the prediction of QSAR model, the molecular featurizer, the numerical expression of a chemical compound is also important. Recently, the machine learning and deep learning techniques are widely used to develop new molecular featurizers to improve the prediction accuracy of QSAR model. Here we introduce the new method for the molecular featurizer, FP2VEC, inspired by the natural language processing techniques. Our new method can express the chemical compounds as a vector representation which is trained by a supervised learning method. And we built a QSAR model using a simple convolutional neural network to evaluate the prediction performance of the FP2VEC method. We evaluated the prediction performance of our model against four for the classification tasks and five datasets for the regression tasks. And we compared our model with other molecular featurizer models. On the classification tasks, our model showed the best prediction accuracy among the benchmark models on three out of four datasets. Also, our model implemented with multi-task learning method outperformed other the benchmark models. And on the regression tasks, our model showed the best performance two out of five datasets. Lastly, we tested the effect of the hyperparameters in our model, and some hyperparameters influenced to the prediction accuracy significantly. As a result, our new molecular featurizer based on NLP techniques provides more useful information and improved the prediction accuracy of QSAR prediction compared with the previous methods.

구조 활성 정량적 관계 (quantitative structure-activity relationship, QSAR) 모델은, 화합물의 화학적 특성을 예측하는 회귀 또는 분류 모델을 의미한다. QSAR 모델을 통한 정확한 예측은 실제 실험을 통해 화합물의 특성을 파악하는 것에 비해 시간과 비용을 절감하는 효과를 가진다. QSAR 모델의 예측에 있어, 분자를 수학적으로 표현하는 분자 표현식은 중요한 역할을 한다. 최근 QSAR 모델의 예측 정확도를 향상시키기 위해, 기계 학습과 딥 러닝을 활용한 분자 표현식의 개발이 이루어지고 있다. 우리는 이번 연구에서 자연어 처리 (natural language processing, NLP) 기법을 활용한 FP2VEC이라는 새로운 분자 표현식을 개발하였다. 우리의 새로운 분자 표현식은 화합물을 지도 학습을 통해 학습된 벡터들로 표현한다. 우리는 FP2VEC의 성능을 평가하기 위해 합성곱 신경망(convolutional neural network, CNN)을 활용한 QSAR 모델을 만들어 예측 정확도를 측정하였다. 우리는 모델의 예측 성능을 측정하기 위해 4개의 분류 과제, 5개의 회귀 분석 과제를 이용하였다. 그리고 예측 성능을 객관적으로 평가하기 위해 다른 분자 표현식을 활용한 모델과 비교하였다. 분류 과제에서는 4개의 과제 중 3개의 과제에서 가장 좋은 성능을 보였다. 또한 회귀 분석 과제에서는 5개의 과제 중 2개의 과제에서 가장 좋은 성능을 보였다. 또한 우리는 모델의 하이퍼파라미터가 모델의 성능에 미치는 영향을 테스트 해보았으며, 일부 하이퍼파라미터는 예측 정확도에 통계적으로 유의미한 변화를 주는 것으로 보인다. 결론적으로 우리의 새 분자 표현식은 기존의 분자 표현식에 비해 더 많은 정보를 제공하며, 예측 정확도를 향상시킬 수 있다.

서지기타정보

서지기타정보
청구기호 {MBIS 19008
형태사항 iv, 28 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 전우성
지도교수의 영문표기 : Dong Sup Kim
지도교수의 한글표기 : 김동섭
학위논문 학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 25-26
주제 Molecular featurizer
quantitative structure-activity relationship
QSAR
natural language processing
NLP
convolutional neural network
CNN
multi-task learning
QSAR prediction
분자 표현식
정량적 구조 활성 관계 모델
자연어 처리
합성곱 신경망
멀티태스킹 학습
정량적 구조 활성 관계 예측
QR CODE qr code