Novel methodologies for classifying scientific articles related to the nuclear fuel cycle have been developed using machine learning to discover declarable activities under the additional protocol of the International Atomic Energy Agency for the peaceful uses of nuclear energy. In this study, the relationships between articles and their lists of references or authors were analyzed using a network to examine the resultant features. By comparing the original network and a randomly rewired network, we show that the article topics and lists of references or authors form clusters in a projected bipartite network, indicating that lists of references or authors can be employed as independent variables for classification. The topics of scientific articles were classified using the lists of article authors, lists of references, and the each word frequency of abstract. Notably, decision-tree classifiers and logistic regression exhibit high F1_score and recall. Furthermore, to improve classifier performance, ensemble classifiers were applied based on the abovementioned single classifiers. The combined classifiers with logistic regression based on author lists as an independent variable showed a particularly high recall value when the subject of an article was distinguished. This classification method could contribute to a better understanding for determining and monitoring nuclear fuel cycle–related R&D to achieve safeguard objectives.
전 세계 여러 국가와 국제원자력기구는 핵무기가 확산하는 것을 방지하고 모든 원자력 활동이 평화적인 목적으로 사용되는 것을 확인하기 위하여 노력하고 있으며, 이러한 노력의 일환으로 회원국은 핵연료주기 관련 연구개발활동 정보를 국제원자력기구에 제공하여야 하며, 국제원자력기구도 이를 감시, 검증하여야 한다. 이번 연구에서는 핵연료주기와 관련된 연구의 논문을 분류하기 위하여 기계학습을 기반으로 한 새로운 분류 알고리즘을 제시하였다. 먼저 논문과 참고문헌 논문과 저자 사이의 관계를 분석하였다. 논문과 참고문헌 또는 저자로 이루어진 이원관계 네트워크를 논문을 중심으로 일원관계로 프로젝션 하여 새로운 네트워크를 만들었고, 비교를 위해 무작위로 섞은 네트워크를 만들었다. 주제가 핵연료주기인 논문들과 핵연료주기가 아닌 논문들은 서로 다른 군집을 형성하는 것을 확인하였으며, 이는 참고문헌 또는 저자 목록이 논문의 주제를 분류할 수 있는 독립변수로 활용될 수 있다는 것을 의미한다. 참고문헌, 저자, 초록의 단어 빈도수를 독립변수로 하여 논문의 주제를 분류하였고 그 성능을 평가하였다. 의사결정나무와 로지스틱 회귀분석 분류기의 성능을 평가한 결과 F1_score와 재현율이 높았으며, 단일 분류기를 결합한 분류기의 성능을 확인한 결과 논문의 저자를 독립변수로 사용한 분류기가 높은 재현율 값을 도출하는데 기여하는 것을 확인하였다. 새로운 분류 알고리즘은 안전조치 목적을 달성하기 위하여 핵연료 주기 관련 연구개발활동을 감시하고 확인하는데 이바지할 수 있다.