The curation of a biomedical database should be conducted automatically as it is too big and growing too fast to take care of manually. Due to the huge size of the data contents and the variety of data type, natural language processing (NLP) techniques are utilized to convert an article to a relational database format without any manual process. However, current biomedical NLP techniques do not consider the syntactic tone as a separate metric to represent the author’s judgment on the prominence of a statement. As the biomedical literature target expert readers, authors often deliver information via a subtle syntactic structure. For example, when an author writes a sentence in present tense, the author is understood to deliver the message that it is an accepted fact. In this work, we analyze the scientific reports for gene regulatory network (GRN), for which manually curated da-tabase for prominent GRN is available. Through the analysis, we verified that the syntax structure is key to distinguish whether or not a report is stating prominent knowledge. We identify the key syntactic features for such distinction, and present a continuous representation of the prominence degree of a knowledge statement into a real number, solely calculated by the syntactic structure of the statement. In addition, we argue for the importance of such research for an effective knowledge discovery platform.
생명의학 데이터베이스는 수동으로 관리하기에 그 크기가 너무 크고 진화 속도가 너무 빠르다는 문제가 있어 자동화된 관리 작업을 필요로 한다. 이와 같은 방대한 정보량과 정보의 다양성에 있어서 자연언어처리 기법은 수동화된 작업 없이 주어진 연구 문헌을 관계형 데이터베이스 형식으로 변환하기 위해 활용된다. 그러나 현재의 생명의학 자연언어처리 기법은 하나의 서술에 대한 저자의 미묘한 문법적 어조가 저자가 본 서술을 사실로 상정하였는지 여부를 파악하기 위해 사용될 수 있음을 고려하지 않는다. 생명의학 문헌은 전문가 독자를 대상으로 하기 때문에 저자들은 통상 미묘한 문법적 어조를 통해 정보를 전달한다. 예를 들어 저자가 문장을 현재 시제로 쓸 때 저자는 이를 통용되는 사실로 상정하고 있다는 점을 전달하는 것으로 간주한다. 본 논문은 수동으로 구축되어 있고 잘 알려져 있는 데이터베이스를 활용할 수 있는 분야인 유전자 조절 네트워크 분야에 대한 과학적 보고들을 분석한다. 해당하는 분석을 통해 본 연구는 문법 구조가 하나의 과학 보고에 있어 사실로 상정된 지식을 서술하는 지 여부를 판단하는 데 있어 단초를 제공한다는 것을 검증하였다. 본 연구는 이러한 판단을 위한 핵심적인 문법적 특징을 파악하고 하나의 정보 서술이 얼마나 사실로 상정되어 있는가를 해당 정보를 서술하는 데 쓰인 문법 구조만을 이용해 하나의 실수(實數)로 계산하는 연속 표현법을 제안한다. 또한 본 논문은 해당하는 연구가 효과적인 지식 발견 플랫폼을 위해 가지는 중요성을 논의한다.