서지주요정보
Classification methods for complex diseases using molecular networks = 분자네트워크를 이용한 복합성 질환의 분류기법
서명 / 저자 Classification methods for complex diseases using molecular networks = 분자네트워크를 이용한 복합성 질환의 분류기법 / Eun-Jung Lee.
저자명 Lee, Eun-Jung ; 이은정
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019673

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 08005

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

The development of effective markers predicting various medical events such as disease occurrence, prognosis or treatment response is essential for precise diagnosis and delivery of tailored therapeutics to individual patients. Recently, an increasing number of disease markers have been identified through analysis of genome-wide expression profiles. Typically, marker genes are selected by measuring the power of their expression profiles to discriminate patients of different disease states. However, classification using those marker genes faces challenges to complex diseases due to cellular heterogeneity within a tissue sample and genetic heterogeneity across patients. In addition, redundant information in a set of marker genes selected independently to each other may lead to decreased classification performance because proteins in cells are known to function coordinately within protein complexes, signaling cascades, and other biological processes. In this thesis, functional modularity of genes is incorporated into disease classification procedure to address theses challenges. The proposed disease classification methods utilize human pathway databases or recently available human protein-protein interaction networks for module extraction. The activity of a module in each patient sample is calculated by summarizing expression levels of member genes in the module, and classifiers to predict the disease status of unknown samples are built based on the inferred activities of modules as a feature vector instead of the expression levels of individual markers genes. In the proposed pathway-based classification, modules are defined as a set of interacting genes in known human pathways collected from several public databases , and the markers in use are not encoded as individual genes or all member genes of pathways but as subsets of condition-responsive co-functional 'key genes'. For each pathway, an activity level is summarized from the gene expression levels of its condition-specific key genes, defined as the subset of genes in the pathway whose combined expression delivers maximal discriminative power for the disease phenotype. The proposed pathway-based approach outperforms previous gene-centric classification in predicting breast and lung cancer prognosis as well as predicting the status of NF-kB pathway activation. Moreover, the new method outperforms several previous approaches which use a static (i.e., non-conditional) definition of pathways. The resulting pathway markers and their key genes also provide models of the molecular mechanisms which define the disease of interest. As yet another approach, a network-based disease classification utilizing human molecular networks such as protein-protein interaction networks as a source of module extraction is proposed. In the proposed method, markers are not individual genes but subnetworks of interacting proteins within a larger molecular network. The subnetworks whose inferred activities are discriminative are searched from the integrated molecular network after overlaying the expression values of each gene on its corresponding protein in the network. Applying the proposed method to predict the metastatic potential of primary breast tumor samples, it is found that the network-based method has several advantages over previous work. First, the resulting subnetworks provide novel hypotheses for the underlying mechanisms of disease. Second, although genes with known mutations are typically not detected through analysis of differential expression, subnetwork markers detect them because they play a central role in the protein network by interconnecting many differentially expressed genes. Third, the identified subnetworks are significantly more reproducible between different breast cancer cohorts than individual marker genes selected without network information. Finally, network-based classification achieves higher accuracy in prediction, as ascertained by selecting markers from one dataset and applying them to a second independent validation dataset. The success of both pathway-based and network-based disease classification methods supports the notion that cancer is indeed a `disease of pathways` and the molecular modules identified by integrating the current prior knowledge of human pathways or molecular networks, and genome-wide expression profiles of cancer patients enable better understanding of these pathways for effective marker development. Increased coverage and quality of human pathway and interaction databases through international efforts for pathway curation, and systematic high-throughput experimental techniques for identifying molecular interactions will further brighten the prospects of the proposed methods. Integrating other types of genome-wide data, such as sequence, transcription factor binding, gene and protein expression, or phenotypic information, holds further promise for determining cause and effect relationship within and between the molecular modules.

질병의 발병 유무, 예후, 치료 및 약물의 효과 등을 예측하기 위한 효과적인 마커의 개발은 정확한 임상진단과 환자 개인별 맞춤의학을 실현하기 위하여 필수적이다. 최근 마이크로어레이와 같은 대용량 실험기술의 개발에 힘입어, 환자 샘플로부터 생성되는 유전체 발현 정보를 분석함으로써 많은 마커 유전자들이 보고되고 있다. 마커유전자들은 대개, 그 발현패턴이 서로 다른 질병상태의 샘플을 잘 구분할 수 있는 정도인 판별력를 계산하여 선택되어 진다. 이러한 기법은 여러 유전자의 이상과 환경적인 요인에 의해 발병하는 암과 같은 복합성 질환의 경우, 조직 내 세포들 간의 차이 및 환자들 간의 유전적 다양성으로 인해 그 정확도 및 재현성에 한계가 있다. 또한 세포 내 단백질들이 단백질 복합체나 신호전달경로 둥에 같이 참여하는 다른 단백질들과의 상호작용을 통하여 기능을 수행하는 반면, 기존의 기법들이 개별유전자를 독립적으로 선택함으로써 포함되는 불필요한 정보가 오히려 분류 성능 저하의 원인이 되기도 한다. 이러한 문제점을 해결하기 위해, 본 연구에서는 세포내 분자들 간의 상호작용을 고려한 기능적 모듈을 질병 분류 과정에 도입하는 두가지 기법을 제안한다. 제안된 질병 분류 기법들은 인간 세포내에서 일어나는 기존에 알려진 경로 정보를 이용하거나, 최근 축적되고 있는 인간 단백질 상호작용 네트워크로부터 기능적 모듈을 추출한다. 환자 샘플로부터의 개별적인 유전자 발현정보를 기반으로 분류기를 생성하는 기존 기법과는 달리, 모듈에 참여하는 유전자들로부터 추론된 모듈의 활성도를 이용하여 분류기를 생성하고 새로운 환자 샘플의 상태를 예측한다. 알려진 인간 세포내의 경로 정보를 이용하는 기법에서는 개별 유전자 혹은 경로에 속하는 모든 유전자들로부터가 아니라 질병 특이적인 변화를 보이는 '핵심 유전자' 들을 선별하고 이들만을 이용하여 경로의 활성도를 추론한다. 한 경로에서 질병 특이적인 핵심 유전자들은 그로부터 추론된 활성도가 서로다른 질병 상태를 구분하는 판별력이 최고가 되는 그 경로 소속 유전자 집합의 부분집합으로 정의한다. 제안된 분류기법은 유방암 전이 예측과 폐암의 예후 예측, 그리고 비교적 단순한 NF-kB 경로의 활성 여부를 예측하는 데 있어서, 개별 유전자 기반 기법뿐만 아니라, 경로에 속한 모든 유전자들을 사용하는 기존의 여러 기법들에 비해 우수한 성능을 보인다. 또한, 분류과정에서 식별된 질병 특이적인 경로와 핵심 유전자들은 질병의 기작을 이해하는데 단서가 될 수 있다. 제안하는 두번째 기법은, 최근 대규모로 축적되고 있는 인간 단백질-단백질 상호작용 네트워크를 이용하는 것으로서, 단백질 네트워크 상에서 질병 특이적인 활성도를 보이는 서브네트워크를 식별해 낸다. 단백직 네트워크 상의 노드에 해당하는 단백질을 코딩하는 유전자의 발현 정보를 네트워크에 투영하고, 네트워크 탐색을 통하여 구성 유전자로부터 계산되는 활성도의 판별력이 우수한 서브네트워크를 발굴한다. 제안된 기법은 유방암 조직 샘플의 유전자 발현정보를 통해 전이 가능성을 예측하는 데 적용되었으며, 서로 다른 연구그룹에 의해 만들어진 두개의 독립적인 유방암 데이터에의 실험을 통하여 제안된 서브네트워크 기반 분류기법이 기존 개별 유전자 기반 기법에 비해 분류 성능과 재현성이 뛰어남을 확인하였다. 또한 식별된 통계적으로 유의한 서브네트워크 마커들은 유방암 진행의 분자적 매커니즘에 대한 여러 생물학적 가설을 제공하며, 발현정도의 차가 미미해 기존 개별 유전자 기반 마커 선별에서는 식별되지 않는 기존에 알려진 유방암 관련 변이 유전자들이 서브네트워크 마커에서는 유의한 수준으로 발굴되었다. 이는 새로운 질병 관련 변이 유전자를 발굴하는 데 제안하는 기법이 활용될 수 있음을 보여준다. 이와 같이, 축적된 생물학적 경로 지식, 분자 상호작용 네트워크, 환자 샘플로부터의 유전체 발현 정보와 같은 여러 형태의 데이터를 통합함으로써 질병의 예측 성능을 개선할 수 있었으며, 이를 통한 질병의 분자적 기작에 대한 나은 이해과 새로운 생물학적 가설 생성이 가능하였다. 특히, 개별 유전자들을 서로 독립적으로 고려한 것이 아니라, 질병 특이적으로 변화를 보이면서 상호작용하는 유전자들의 기능적인 단위로서 이미 알려진 경로 내에서의 핵심 유전자 집합 및 분자 네트워크 상의 서브네트워크를 발굴하고, 이들로부터 추론된 활성도를 기반으로 질병을 예측하였다. 본 연구에서 제안된 기법들의 우수한 분류성능과 재현성은 암과 같은 복합성 질환이 경로의 이상에 의한 질병이며, 이를 정복하기 위해서는 이러한 개념이 연구에 도입되어야 함을 시사한다.

서지기타정보

서지기타정보
청구기호 {DBiS 08005
형태사항 ix, 78 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 이은정
지도교수의 영문표기 : Do-Heon Lee
지도교수의 한글표기 : 이도헌
수록잡지정보 : "Network-based classification of breast cancer metastasis". Molecular Systems Biology, v.3 no.140, pp. 1-10(2007)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 68-78
주제 molecular network;protein-protein interaction;pathway;disease classification;PPI
분자 네트워크;단백질-단백질 상호작용;경로;질병 분류;PPI
QR CODE qr code