서지주요정보
Relation information extraction using a comprehensive representation scheme: applications to oncology = 포괄적 표현법을 활용한 관계 정보 추출: 종양학에의 응용
서명 / 저자 Relation information extraction using a comprehensive representation scheme: applications to oncology = 포괄적 표현법을 활용한 관계 정보 추출: 종양학에의 응용 / Hee-Jin Lee.
저자명 Lee, Hee-Jin ; 이희진
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026960

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 14016

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

Information extraction (IE) is a task of identifying relevant information from input text and producing structured data as output. While explicit expressions describing the target information are the basis for the development of IE systems, in-depth analysis of the input text becomes necessary when the information is conveyed implicitly in the text. In this dissertation, we address a specialized IE method for gene-cancer relations conveyed implicitly in biomedical text. Automatic identification of gene-cancer relations from a large volume of biomedical text is an important task for cancer research, since changes in genes are known to be the main cause of oncogenesis. In particular, it is essential to understand how a gene affects a cancer and to classify genes into oncogenes (genes that cause cancers), tumor suppressor genes (genes that protect cells from cancers) and biomarkers (genes that indicate normal or cancerous states), since such classification facilitates the process of treatment and diagnosis method development. However, despite the high volume of information on such gene classes that is conveyed implicitly with detailed descriptions about gene and cancer properties, there is not yet an IE system that is targeted at such implicit information. In this dissertation, we claim that in order to classify genes into candidates of oncogenes, tumor suppressor genes and biomarkers, gene-cancer relations described in biomedical text must be characterized with 1) how a gene changes; 2) how a cancer changes; and 3) the causality between the gene and the cancer. We propose a comprehensive representation scheme that identifies gene-cancer relations upon the three aspects above and use it for developing an advanced text mining system for oncogenes, tumor suppressor genes and biomarkers. The proposed representation scheme is shown to be adequate enough to describe the set of information that can be identified objectively from biomedical text, giving rise to an annotated corpus, or CoMAGC. The mapping between the proposed representations and the gene classes is encoded into a set of inference rules, which are validated through manual annotation and comparison with other biology databases. We present an implemented IE system that automatically extracts the information as defined by the proposed scheme, or OncoSearch. Together, we anticipate that CoMAGC and OncoSearch will enable more focused research into oncology, in the face of the rapidly accumulating amount of work in the field.

정보 추출이란 입력 텍스트로부터 관련 정보를 추출하여 구조화된 데이터를 확보하는 작업이다. 이러한 정보 추출 시스템을 개발하는데는 추출하고자 하는 대상 정보에 대한 명시적 표현이 주로 활용된다. 그러나 추출하고자 하는 대상 정보가 텍스트에 암시적으로 내포되어 있는 경우에는 입력 텍스트에 대한 깊이 있는 분석이 필수적으로 요구된다. 본 논문에서는 생물학 문헌에 암시적으로 표현되어 있는 유전자-암 관계 정보를 자동으로 추출하는 특화된 정보 추출 시스템을 제안한다. 유전자 암-관계에 관한 정보를 대량의 생물학 문헌으로부터 자동 추출하는 것은 암 연구에 있어 매우 중요하다. 이는 유전자 변화가 암 생성의 주요한 원인으로 알려져 있기 때문이다. 특히 유전자가 암에 어떻게 영향을 미치는 지를 잘 이해하여 각 유전자를 암유발유전자(암을 일으키는 유전자), 암억제유전자(세포를 암으로부터 보호하는 유전자) 및 바이오마커(정상 및 암 상태를 구분하는데 사용할 수 있는 유전자)로 구분하여 파악하는 것이 필수적이다. 암유발유전자 및 암억제유전자를 파악하면 암발생기작의 이해 및 암 치료법 개발에 직접 활용할 수 있고, 바이오마커의 확인은 암진단을 위해 활용될 수 있다. 이러한 유전자 분류에 관한 정보가 생물학 문헌에 대량으로 존재하지만, 관련 정보가 명시적인 표현을 통해서보다는 암시적으로 전달되고 있는 경우가 대부분이다. 그럼에도 불구하고 지금까지 이러한 암시적 정보를 다루는 정보 추출 시스템은 개발되어 있지 않다. 본 논문에서는 유전자를 암유발유전자, 암억제유전자 및 바이오마커로 분류하기 위한 전단계로, 생물학 문헌에 나타난 유전자-암 관계정보를 1)~유전자 변화 양상, 2)~암 변화 양상 및 3)~유전자와 암 간의 인과관계의 세 가지 측면을 통해 파악해야 함을 보인다. 이어 이러한 세 가지 측면을 통해 유전자-암 관계를 파악하는 포괄적 표현법을 제안하고, 이를 활용해 암유발유전자, 암억제유전자 및 바이오마커를 자동으로 파악하는 고급 텍스트 마이닝 시스템을 구성한다. 제시된 표현법을 통하면 생물학 문헌에서 객관적으로 파악 가능한 정보를 포괄적으로 표현할 수 있는 것을 보이고, 이를 통해 주석 처리된 말뭉치인 CoMAGC를 구축하였다. 그리고 이러한 포괄적 표현법을 통해 구조화된 데이터와 세 가지 유전자 부류 간의 상관 관계는 추론 규칙으로 정리하였으며, 추론 규칙들은 별도의 주석처리 및 생물학 데이터베이스들을 통해 검증하였다. 또한 제안된 표현법에 의해 정의된 정보를 자동으로 추출하는 IE 시스템인 OncoSearch를 개발하였다. CoMAGC 와 OncoSearch 를 사용하여 종양학 분야의 연구가 해당 분야의 빠른 정보 축적에 효율적으로 대응할 수 있을 것으로 기대된다.

서지기타정보

서지기타정보
청구기호 {DCS 14016
형태사항 v, 71 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이희진
지도교수의 영문표기 : Jong-Cheol Park
지도교수의 한글표기 : 박종철
수록잡지명 : "CoMAGC: a Corpus with Multi-faceted Annotations of Gene-Cancer Relations". BMC Bioinformatics, v.14,no.1, pp.332-229(2013)
수록잡지명 : "OncoSearch: Cancer Gene Search Engine with Literature Evidence". Nucleic Acids Research, doi:10.1093/nar/gku368, doi:10.1093/nar/gku3(2014)
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 62-67
주제 Information Extraction
Cancer
Gene
Relation Information
Oncogene
Tumor suppressor gene
Biomarker
정보 추출

유전자
관계 정보
암유발유전자
암억제유전자
바이오마커
QR CODE qr code