서지주요정보
Using syntactic structure to extract prominent gene regulatory network from the literature = 문서 내에서 사실로 상정된 유전자 조절 네트워크의 추출을 위한 문법 구조의 활용
서명 / 저자 Using syntactic structure to extract prominent gene regulatory network from the literature = 문서 내에서 사실로 상정된 유전자 조절 네트워크의 추출을 위한 문법 구조의 활용 / Won Suk Yang.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031450

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17061

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The curation of a biomedical database should be conducted automatically as it is too big and growing too fast to take care of manually. Due to the huge size of the data contents and the variety of data type, natural language processing (NLP) techniques are utilized to convert an article to a relational database format without any manual process. However, current biomedical NLP techniques do not consider the syntactic tone as a separate metric to represent the author’s judgment on the prominence of a statement. As the biomedical literature target expert readers, authors often deliver information via a subtle syntactic structure. For example, when an author writes a sentence in present tense, the author is understood to deliver the message that it is an accepted fact. In this work, we analyze the scientific reports for gene regulatory network (GRN), for which manually curated da-tabase for prominent GRN is available. Through the analysis, we verified that the syntax structure is key to distinguish whether or not a report is stating prominent knowledge. We identify the key syntactic features for such distinction, and present a continuous representation of the prominence degree of a knowledge statement into a real number, solely calculated by the syntactic structure of the statement. In addition, we argue for the importance of such research for an effective knowledge discovery platform.

생명의학 데이터베이스는 수동으로 관리하기에 그 크기가 너무 크고 진화 속도가 너무 빠르다는 문제가 있어 자동화된 관리 작업을 필요로 한다. 이와 같은 방대한 정보량과 정보의 다양성에 있어서 자연언어처리 기법은 수동화된 작업 없이 주어진 연구 문헌을 관계형 데이터베이스 형식으로 변환하기 위해 활용된다. 그러나 현재의 생명의학 자연언어처리 기법은 하나의 서술에 대한 저자의 미묘한 문법적 어조가 저자가 본 서술을 사실로 상정하였는지 여부를 파악하기 위해 사용될 수 있음을 고려하지 않는다. 생명의학 문헌은 전문가 독자를 대상으로 하기 때문에 저자들은 통상 미묘한 문법적 어조를 통해 정보를 전달한다. 예를 들어 저자가 문장을 현재 시제로 쓸 때 저자는 이를 통용되는 사실로 상정하고 있다는 점을 전달하는 것으로 간주한다. 본 논문은 수동으로 구축되어 있고 잘 알려져 있는 데이터베이스를 활용할 수 있는 분야인 유전자 조절 네트워크 분야에 대한 과학적 보고들을 분석한다. 해당하는 분석을 통해 본 연구는 문법 구조가 하나의 과학 보고에 있어 사실로 상정된 지식을 서술하는 지 여부를 판단하는 데 있어 단초를 제공한다는 것을 검증하였다. 본 연구는 이러한 판단을 위한 핵심적인 문법적 특징을 파악하고 하나의 정보 서술이 얼마나 사실로 상정되어 있는가를 해당 정보를 서술하는 데 쓰인 문법 구조만을 이용해 하나의 실수(實數)로 계산하는 연속 표현법을 제안한다. 또한 본 논문은 해당하는 연구가 효과적인 지식 발견 플랫폼을 위해 가지는 중요성을 논의한다.

서지기타정보

서지기타정보
청구기호 {MCS 17061
형태사항 v, 50 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 양원석
지도교수의 영문표기 : Jong Cheol Park
지도교수의 한글표기 : 박종철
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References: p. 46-47
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서