서지주요정보
Computing distributional semantics of genes using graph = 그래프 구조를 활용한 유전자의 분포 의미 파악
서명 / 저자 Computing distributional semantics of genes using graph = 그래프 구조를 활용한 유전자의 분포 의미 파악 / Jimin Park.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8030733

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17013

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In order to find out whether a gene causes a certain cancer to progress or regress, an analysis of researches conducted on the relation between the state change of the cancer and the expression change of the gene is called for. However, it is difficult to read articles related to the gene over the network of gene interactions manually when numerous articles are published everyday. To address this problem, we can use text mining tools to find out the relationships between cancers and genes reported in articles, but currently available tools process each sentence differently. It means that they do not take global context such as biological pathways and deductive reasoning into consideration as they cannot detect inter-sentence relations. In particular, since biological pathways often contain many cases where a lot of genes, proteins, and other chemicals interact with one another to perform a task, not considering global context becomes a significant problem. This research proposes a method for computing embedding vectors of vertices on a graph based on Distributional Hypothesis, and uses it to construct the system that infers relationships between genes and cancers by embedding entities like genes from a network of entities on a vector space. After performing experiments using the proposed method, and by considering chains of interactions on a pathway by computing embeddings of entities on a graph, the performance is found to have increased compared to the current system even though the used graph is inaccurate. Additionally, it is found that the decision of whether local constraints are preserved or not when graph embedding is done on a pathway extracted from the literature affects the overall performance.

어떤 유전자가 특정한 암을 유발하거나 억제하는 작용 등을 하는지를 파악하기 위해서는 특정 암이 발병하였을 때 유전자 발현 상태에 따라 암이 호전되는지, 또는 악화되는지를 실험한 연구들의 문서를 분석해야 한다. 하지만 수많은 관련 논문들이 발간되고 있을 때 유전자들의 상호작용 네트워크에서 필요한 부분과 관련된 논문을 사람이 직접 찾아보는 것은 어려운 일이다. 이를 해결하기 위해 생물학 논문에서 텍스트 마이닝을 하여 유전자와 암 사이의 관계를 파악하는 도구가 있지만, 기존의 도구는 각 문장을 독립적으로 처리한다. 각 문장을 독립적으로 처리하게 되면 문장 간의 관계를 살펴볼 수 없기 때문에 생물학적 경로나 연역적 추론과 같은 전역적인 지식이 필요한 작업을 수행할 수 없게 된다. 특히 생물학적 경로에서는 여러 유전자, 단백질과 기타 화합물질들이 상호작용을 하여 여러 단계를 거쳐 하나의 기능을 하는 경우가 많기 때문에, 이런 전역적인 상호작용을 파악하지 못하는 것은 큰 문제가 된다. 이 연구에서는 분포 가설에 기반하여 그래프 상에서 꼭짓점들의 임베딩 벡터를 구하는 방법을 제안하고, 이를 활용해 구성 요소간의 네트워크로부터 구성 요소를 벡터 공간상에 임베딩하고 주어진 유전자가 암에 끼치는 영향을 판별하는 시스템을 구축하였다. 이러한 방식을 사용하여 실험한 결과, 그래프 상의 구성 요소의 임베딩을 구하는 과정을 통해 생물학적 구성 요소의 여러 단계에 걸친 상호작용을 고려하게 되면 그래프 데이터가 정확하지 않더라도 기존 시스템에 비해 성능이 향상됨을 확인하였다. 또한 텍스트로부터 추출된 생물학적 경로 상에서 그래프 임베딩을 할 때 지역적 조건이 보전되는지의 여부가 성능에 영향을 끼침을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MCS 17013
형태사항 iv. 24 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박지민
지도교수의 영문표기 : Jong C. Park
지도교수의 한글표기 : 박종철
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 21-22
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서