서지주요정보
Application of machine learning for language models in porous materials = 다공성 물질 내 언어 모델을 위한 기계 학습의 응용
서명 / 저자 Application of machine learning for language models in porous materials = 다공성 물질 내 언어 모델을 위한 기계 학습의 응용 / Hyunsoo Park.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041503

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DCBE 23040

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Porous materials have received a great amount of attention in recent years for their wide applications such as energy storage, gas separation and storage, catalysis, sensor, etc. This is due to their excellent properties such as large surface area, high chemical/thermal stability, and tunability. These materials are composed of tunable molecular building blocks through covalent bonds or metal ions (or clusters) via coordination interaction. They can, in principle, be synthesized in an infinite number of combinations such as metal-organic frameworks (MOFs), covalent-organic frameworks (COFs), porous polymer materials (PPN), and zeolite. Recently, machine learning has seen rapid development in a wide range of applications, in particular, language and vision. Concurrently, a considerable amount of research has been conducted on the application of machine learning in the field of crystalline porous materials. In particular, identifying structure-property relationships and inverse design via machine leaning has the potential to accelerate the discovery of optimal materials with desired property when exploring the vast chemical space of porous materials. This dissertation aims to develop machine learning models to predict various properties of porous materials such as synthesizability, gas uptake, diffusivity, and band gap by utilizing machine learning for language models which exhibits state-of-art performance in natural language process. First, a positive-unlabeled learning algorithm was developed to predict synthesizability of MOFs given synthesis conditions as inputs. To this end, synthesis conditions of MOFs were collected from scientific literature using the developed text-mining code. The algorithm successfully predicted successful synthesis in 83.1 % of the synthesized data in the test set. Second, a Transformer architecture, which has been considered the dominating neural network architecture in language models, was introduced for universal transfer learning in MOFs which enables transfer learning across various properties of MOFs. That is, MOFTransformer which is a multi-modal Transformer encoder pre-trained with 1 millon hypothetical MOFs was developed. This multi-modal model utilizes integrated atom-based graph and energy-grid embeddings to capture both local and global features of MOFs, respectively. By fine-tuning the pre-trained, it achieves state-of-the-art results for predicting across various properties. Third, beyond MOFs, we introduce PMTransformer (Porous Material Transformer), a multi-modal pre-trained Transformer model pre-trained on a vast dataset of 1.9 million hypothetical porous materials, including MOFs, COFs, PPNs, and zeolites. The PMTransformer showcases remarkable transfer learning capabilities, resulting in state-of-the-art performance in predicting various porous material properties. Fourth, a reinforcement learning framework was developed for inverse design of MOFs with desired properties, our motivation being designing promising materials for the important environmental application of direct air capture of CO2 (DAC). We demonstrate that the reinforcement learning framework can successfully design MOFs with critical characteristics important for DAC. These approaches

다공성 소재는 에너지 저장, 가스 분리 및 저장, 촉매, 센서 등 다양한 응용 분야에서 많은 관심을 받고 있다. 이는 높은 표면적, 화학/열적 안정성 및 조정 가능성과 같은 우수한 특성 때문이다. 이 소재는 공유 결합 또는 조정 상호 작용을 통해 금속 이온 (또는 클러스터)을 통해 조정 가능한 분자 구성 요소로 구성된다. 원칙적으로 금속-유기 골격체 (MOF), 공유결합 유기구조 물질 (COF), 다공성 고분자 소재 (PPN) 및 제올라이트와 같은 무한한 조합으로 합성할 수 있다. 최근에는 기계 학습이 언어 및 비전 등 다양한 응용 분야에서 급속한 발전을 이루었다. 동시에, 다공성 소재 분야에서 기계 학습의 응용에 대한 상당한 연구가 수행되었다. 특히, 기계 학습을 통한 구조-특성 관계 설립 및 역설계는 다공성 소재의 광범위한 화학적 공간을 탐색할 때 원하는 특성을 가진 최적의 소재 발견을 가속화하고 있다. 이 논문은 자연 언어 처리에서 최첨단 성능을 발휘하는 기계 학습 모델을 사용하여 다공성 재료의 다양한 특성을 예측하는 것을 목표로 한다. 첫째, 합성 조건을 입력으로 하여 MOF의 합성 가능성을 예측하기 위해 양성-음성 라벨링 학습 (PU learning) 알고리즘이 개발되었다. 이를 위해 개발한 텍스트 마이닝 코드를 사용하여 MOF의 합성 조건을 과학 문헌에서 수집해서 성공적으로 합성가능성을 예측했다. 둘째, 언어 모델에서 지배적 인 신경 네트워크 아키텍처로 간주되고 있는 Transformer 아키텍처가 MOF의 범용 전이 학습을 위해서 도입했다. MOFTransformer는 1 백만 개의 가상 MOF로 사전 훈련된 멀티 모달 Transformer 인코더이다. 이 멀티 모달 모델은 MOF의 지역 및 글로벌 특성을 각각 포착하기 위해 통합된 원자 기반 그래프 및 에너지 그리드 임베딩을 사용했다. 사전 훈련된 모델을 미세 조정하여 다양한 특성을 예측하는 데 모두 최고성능을 달성했다. 셋째, MOF를 넘어 PMTransformer (Porous Material Transformer)가 개발되었다. Transformer는 1.9 백만개의 가상 다공성 재료로 구성된 광범위한 데이터 세트에서 사전 훈련된 멀티 모달 Transformer 모델이다. PMTransformer는 놀라운 전이 학습 기능을 보여주며 다양한 다공성 재료 특성을 예측하는 데 최고성능을 달성했다. 넷째, 원하는 특성을 가진 MOF의 역 설계를 위해 강화 학습 프레임워크를 개발했다. 강화 학습 프레임워크가 CO2 직접 공기 포집 (DAC)에 중요한 특성을 가진 MOF를 성공적으로 설계할 수 있음을 보여준다. 이러한 접근 방식은 다공성 재료에 대한보다 포괄적인 이해와 설계를 가능할 수 있음을 보여준다.

서지기타정보

서지기타정보
청구기호 {DCBE 23040
형태사항 vii, 80 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박현수
지도교수의 영문표기 : Jihan Kim
지도교수의 한글표기 : 김지한
수록잡지명 : "Mining Insights on Metal−Organic Framework Synthesis from Scientific Literature Texts". Journal of Chemical Information and Modeling, V.62.no.5, 1190-1198(2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 생명화학공학과,
서지주기 References : p. 69-78
주제 Porous materials
Molecular simulation
Machine learning
Inverse design
Natural language models
다공성 물질
분자 시뮬레이션
머신러닝
역설계
자연어 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서