Reconstruction of gene-protein-reaction associations using biological big data and deep learning = 바이오 빅데이터 및 딥러닝 기반 유전자-단백질-생화학 반응 상관관계 구축
서명 / 저자 Reconstruction of gene-protein-reaction associations using biological big data and deep learning = 바이오 빅데이터 및 딥러닝 기반 유전자-단백질-생화학 반응 상관관계 구축 / Minji Kim.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

MCBE 23032

휴대폰 전송







The field of biological sciences has seen a significant increase in the number of published papers, which serve as a crucial source for novel discoveries. However, despite the availability of advanced search engines, efficient gathering and processing of newly reported data from the vast collection of literature has become increasingly challenging. A critical area of information that requires systematic extraction from literature is gene-protein-reaction (GPR) associations. The availability of GPR associations plays an instrumental role in studying the connection between an organism’s genetic makeup and its observable characteristics. Additionally, they enable the development of computational models such as genome-scale metabolic models. This study introduces a Python-based text-mining framework, which facilitates the efficient and systematic extraction of GPR association information from literature. The system employs multiple deep learning-based language models, namely BioBERT, PubMedBERT, and BioGPT, to retrieve data on five entities: species, genes, proteins, chemicals, and metabolites. The extracted GPR associations are subsequently reconstructed in a Boolean logic. The text mining framework developed in this study holds promise in enhancing the efficient and comprehensive collection of biological information (i.e., GPR associations) from an extensive corpus of literature.

생물학 분야에서 게재되는 논문의 양은 매년 급속히 증가하고 있으며, 논문은 항상 새로운 발견의 중요한 출처가 된다. 그러나 문헌의 방대한 양으로 인해 첨단 검색 엔진의 발전에도 불구하고 새로 보고된 데이터를 효율적으로 수집하고 처리하는 것은 여전히 어려운 과제이다. 문헌에서 체계적으로 추출되어야 하는 중요한 정보 중 하나는 유전자-단백질-생화학반응 (Gene-Protein-Reaction, GPR) 연관성 정보이다. GPR 데이터는 생물의 유전적 구성과 관찰 가능한 특성 사이의 연결을 연구하는 데 중요한 역할을 하며, 게놈 규모의 대사 모델과 같은 컴퓨터 모델 개발을 가능하게 한다. 본 연구에서는 문헌으로부터 GPR 정보를 효율적이고 체계적으로 추출하는 Python 기반의 텍스트 마이닝 구조를 소개한다. 이 시스템은 BioBERT과 PubMedBERT, BioGPT와 같은 다양한 딥러닝 기반 언어모델을 사용하여 종, 유전자, 단백질, 화학 물질 및 대사물질에 대한 데이터를 검색한다. 추출된 GPR 정보는 이후 부울 논리로 재구성된다. 본 연구에서 개발한 텍스트 마이닝 구조는 광범위한 논문 데이터에서 GPR 연관성과 같은 생물학적 정보를 효율적이고 포괄적으로 수집하는 데 활용될 수 있을 것으로 기대된다.


청구기호 {MCBE 23032
형태사항 iii, 36 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김민지
지도교수의 영문표기 : Hyun Uk Kim
지도교수의 한글표기 : 김현욱
학위논문 학위논문(석사) - 한국과학기술원 : 생명화학공학과,
서지주기 References : p. 32-35
주제 genome annotation
gene-protein-reaction association
text mining
deep learning-based language model
유전체 분석
유전자-단백질-생화학반응 연관성
텍스트 마이닝
딥러닝 기반 언어모델





이 주제의 인기대출도서