Porous materials are in the spotlight in various fields such as gas storage and separation and catalysts due to their large specific surface area and pore volume. In particular, various synthetic attempts have been made for metal-organic frameworks (MOFs) due to their high tunability. The number of MOFs reported to the Cambridge Structural Database (CSD) has increased exponentially to more than 100,000. Due to the paradigm shift of research and the exponential increase in the number of porous materials, data science research on porous materials is being actively conducted. However, various problems often arise due to the absence of organized data and data inconsistency between experiments and simulation. In this study, we propose a text-mining algorithm so that experimental data for data science can be extracted from published papers. In addition, the number of experimental data are not sufficient, so the calculated data are used together. Confirming that there is inevitably a difference between these calculated data and the experiment, differences are quantified by comparing X-ray diffraction data using earth mover’s distance (EMD), and a methodology for predicting experimental data from simulation data is presented. Finally, by predicting the adsorption isotherm and surface area through the proposed methodology, we suggest to the computational scientists that the numerical analysis of the X-ray diffraction pattern should be preceded along with pretreatment such as structural optimization.
다공성 물질은 큰 비표면적 및 공극 부피로 인해 기체 흡착 포집 및 촉매 등 다양한 분야에서 각광받고 있다. 그 중에서도 금속유기구조체는 높은 조정 가능성으로 인해 많은 합성 시도가 되고 있으며 기하급수적으로 수가 늘어 데이터베이스에 포함된 숫자가 약 10만여개를 넘어섰다. 연구의 패러다임 변화와 다공성 물질의 기하급수적인 수 증가로 인해 다공성 물질에 대한 데이터 사이언스 연구가 활발하게 진행되고 있으나 여전히 정돈된 데이터의 부재 및 실험과 계산 사이의 데이터 불일치 등으로 인하여 어려움을 겪고 있다. 본 연구에서는 텍스트 마이닝 알고리즘을 제시하여 데이터 사이언스를 위한 실험데이터를 논문으로부터 추출할 수 있게 한다. 추가로 실험데이터의 수가 충분하지 않아 함께 사용되는 계산데이터들이 실험과의 차이가 있을 수밖에 없음을 확인하고, 해당 차이를 엑스선 회절 데이터를 사용해 수치화 하며 계산데이터로부터 실험데이터를 예측할 수 있는 방법론을 제시한다. 끝으로는 제시한 방법론을 통하여 흡착 곡선 및 표면적을 예측하여 계산과학자들에게 구조 최적화 등의 전처리와 함께 엑스선 회절 패턴의 수치적인 분석 역시 선행되어야 함을 제안한다.