There have been numerous examples of application of NLP techniques to extract PPI data from natural language texts, but few for other purposes. Most of the previously developed methods performed only extraction of information with no further analysis or inference. With the advancement in biomedical science, it has become imperative to extract and then combine information from multiple disjoint researches, studies and articles to infer new hypotheses, and expand knowledge. We developed a method for extracting relationships using Link Grammar Parser while employing MetaMap as a named entity recognizer. The rules created from our “Tagger” were fed to the extractor which performed the main extraction task. When applied to MEDLINE abstracts, the system was able to extract relevant relationships with good precision and recall. Afterwards, the extracted data is used for knowledge emergence by combining multiple pieces of information to infer new knowledge using our proposed similarity measure. Such system can be used to provide new insights into the actions of drugs and other substances.
본 연구에서는 일반적인 생의학 문헌으로부터 관계를 추출해 내고 이를 바탕으로 새로운 가설을 생성할 수 있는 시스템을 개발하였다. 이 시스템은 링크 문법을 기반으로 문장의 구조를 분석하고, 메타맵을 통하여 해당 문장이 가지는 의미를 인식한다. SEPDB 정보 모델 (물질 - 효과 - 과정 - 질병 - 부위) 에 기반하여 정보를 해석하기 위해 몇몇 법칙들을 규정하고, 이를 바탕으로 MEDLINE의 개요를 통해 정보를 추출하였다. 이 단계를 거쳐 정보를 담은 문장들이 추출되면, 메타맵을 이용하여 해당 문장이 가지는 의미가 무엇인지 분석한 뒤 각 구성 요소를 적정 범주에 배치시킨다. 그 결과로 각 개념마다 동일 범주로 묶인 구성 요소와 그 관계 정보가 시스템에 저장된다. 검증을 통해 기존 연구에 비해 우리의 시스템이 문장의 의미를 해석하는 데 더 좋은 성능을 보임을 확인하였다.
본 연구의 또다른 장점은 위와 같이 추출되어 누적된 정보를 바탕으로 새로운 가설을 창출할 수 있다는 점에 있다. 새로운 가설을 창출해내기 위해 메타맵 의미 유형, 문장 구성의 유사도, 구성 요소의 수 및 XLogP 값에 기반한 기존 문장 간 유사도를 측정하여 사용하였다. 유사한 물질은 유사한 결과물을 생성한다는 것을 기본 가정으로 하여 문장 간 유사도를 바탕으로 새로운 가설을 추론한다.