서지주요정보
Inference of boolean rules of gene sets for disease classification = 유전자 집합간의 불리언 규칙 추론을 통한 질병 분류 기법 연구
서명 / 저자 Inference of boolean rules of gene sets for disease classification = 유전자 집합간의 불리언 규칙 추론을 통한 질병 분류 기법 연구 / In-Ho Park.
발행사항 [대전 : 한국과학기술원, 2010].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8021932

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 10005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the development of advanced genome-wide gene expression profiling technologies, it has become possible to simultaneously measure expression levels of thousands of genes in a population of cells under a specific condition, and now a large volume of gene expression data under the various experimental conditions is being rapidly accumulated in public repositories such as GEO (Gene Expression Omnibus) at the NCBI (National Center for Biotechnology Information) and ArrayExpress at the EBI (European Bioinformatics Institute), serving as invaluable resources for molecular cancer research. In a typical analysis of cancer gene expression profiles, individual genes are ranked by their statistical significance of the differential expression between two different experimental conditions (such as normal vs. tumor tissues); several tens of top-ranked genes are then selected for further analysis, such as cancer classification and functional enrichment analysis. One limitation of these individual gene ranking based approaches is that they are prone to produce unstable gene-lists which affect the results of subsequent analysis. Recently developed gene set analysis approaches aim to directly evaluate the statistical significance of differential expression patterns of groups of functionally relevant genes without a gene pre-selection step. These approaches have been considered to offer advantages over conventional functional enrichment analysis, followed by an individual gene ranking step, in detecting biological processes that show $\It{`subtle but coordinated expression changes`}$ between two different conditions. Moreover, a number of studies that use inferred gene set activity profiles for the purposes of various pattern analyses such as cancer classification and cancer subtype identification have shown bettern performance than individual gene based pattern analyses. To gain further insights about the molecular mechanisms of tumor developments, there have been a number of efforts that try to construct a dependency network of gene sets by exploiting gene expression profiles. However, most of these studies have not utilized the information about phenotypes of samples when they construct gene set dependency models. Furthermore, these studies have not explicitly used the identified gene set dependency structures to construct predictive models. Therefore, in this work, we propose a systematic method to study synergistic effects for tumor developments among cellular functions with gene expression datasets. To this end, we firstly identify coherently expressed submodules of each gene set belonging to the 639 canonical pathways available at the MSigDB and use the submodules as background gene sets for further analysis. Secondly, we infer gene set activities in individual samples from gene expression profiles and then binarize them. Thirdly, we construct a gene set synergy network; we use that network to search for small groups of synergistic gene sets that provide rich information on the disease status of samples. Finally, we extract significant Boolean rules of the gene sets within each identified group and validate the rules by using independent test datasets. By applying the present approach to publicly available prostate cancer datasets, we identified 72 significant Boolean rules, and we discuss several identified Boolean rules, such as the rule of $\It{glutathione metabolism (down)}$ and $\It{prostaglandin synthesis regulation (down)}$, which are consistent with known prostate cancer biology.

유전자 칩과 차세대 염기서열 분석 기술 기반의 대용량 유전자 발현 프로파일링 기법의 발전은 특정 세포군내에서 발현되는 수 만 종의 유전자의 발현 정도를 고속으로 동시에 측정 하는 것을 가능하게 하였고, 이러한 기술로 생성된 대용량 유전자 발현 데이터는 발암 과정에서의 분자생물학적 기작을 이해하고 개인 맞춤형 암 치료 기술 개발을 위한 중요한 연구 자원으로 인식되어 활용되고 있으며 NCBI(National Center for Biotechnology Information)의 GEO(Gene Expression Omnibus)나 EBI(European Bioinformatics Institute)의 ArrayExpress와 같은 공개 데이터베이스에 축적되어 공개되고 있다. 일반적으로, 암 연구에서 유전자 발현 데이터는 서로 다른 두 조건(예: 정상 조직과 암 조직)에서 유의한 변화를 보이는 개별 유전자들을 t-test, ANOVA(Analysis of variance)와 같은 통계적 검증방법을 이용하여 선별하고, 선별된 유전자들의 발현 양을 이용하여 개별 검체를 임상, 병리학적 특성에 따라 정확하게 판별하기 위한 기계학습(또는 통계학습) 모델을 만드는 과정을 순차적으로 적용하여 분석되어 왔다. 위 과정을 거쳐 학습된 기계학습 모델은 암의 진단, 예후 예측, 특정 항암 치료법에 대한 환자의 반응 예측 등에 응용하기 위해 독립적인 검체를 이용한 검증 절차를 거치게 된다. 또한, 발암 과정에서의 분자생물학적 기작을 이해하기 위한 노력으로 유전자들의 기능적 특징을 기술하는 여러 생물학적 용어들이 선별된 유전자들의 주석 정보 사이에서 얼마나 유의미하게 자주 나타나는지를 검증하는 functional enrichment analysis 를 수행해왔다. 위와 같은 개별 유전자 기반의 유전자 발현 데이터 분석 방법은 개별 연구에 있어서 검체의 수(10 ~ 1000)가 측정 대상 유전자의 수(10000 ~ 100000)에 비해 현저하게 적기 때문에 통계적 검증력이 제한되어 있으며, 같은 질병에 대한 여러 연구들 사이에서도 선별된 유전자가 각 개별 연구에 따라 상이한 경우가 많아 유전자 발현 데이터의 해석 및 응용에 어려움이 있어왔다. 또한, 각 연구자가 임의로 설정한 임계 값에 따라 선별된 유전자들의 크기가 변하기 때문에 유전자 발현 데이터에 나타나는 서로 다른 두 조건 사이의 분자생물학적 기능의 차이를 이해하기 위한 functional enrichment analysis 의 결과가 달라질 수 있으며, 특정 기능에 속한 개별 유전자들이 각각으로는 선별되지 못할 만큼 적게 변화하지만 전체적으로는 일관성을 갖고 유의하게 변화하는 경우에 해당되는 특정 세포 기능을 발견하는 능력이 떨어진다는 문제점이 제기되어왔다. 최근 개발된 유전자 집합 기반의 분석 방법은 개별 유전자 기반의 분석 방법에서 사용하고 있는 유전자 선별 과정을 없애고, GO (Gene Ontology), KEGG (Kyoto Encyclopedia of Genes and Genomes), MSigDB(Molecular Signature Database), Reactome 등의 공개 데이터베이스에서 기능적으로 관련되어 있다고 여겨지는 유전자들로 정의된 유전자 집합들의 조건간 변화 정도를 각 유전자 집합에 포함된 유전자들의 전체 발현 패턴이 실험 조건에 따라 통계적으로 유의미하게 함께 변화하고 있는지를 직접 계산함으로 측정한다. 또한, 개별 검체 내에서의 유전자 집합 내의 유전자들의 발현 패턴을 하나의 값으로 요약하여 해당 유전자 집합의 개별 검체 내에서의 활성도를 추정한 뒤 분류 기법 및 군집화 기법 등의 기계학습 기술을 적용한 방법들이 개발되었으며, 이런 방법들은 개별 유전자 기반의 기계학습 모델보다 해석이 용이할 뿐 아니라 다른 독립 데이터에서도 학습된 기계학습 모델이 잘 적용됨을 보여주었다. 하지만, 이러한 모델은 발암 과정에서 중요하다고 생각되는 세포 기능들 사이의 협력 및 의족관계를 명시적으로 표현하기가 어렵다는데 한계가 있으며, 발암 과정에서의 분자생물학적 기작의 용이한 이해를 위해서 발암 과정에서 나타나는 여러 세포 기능들 사이의 협력 및 의존 관계를 밝혀내는 새로운 방법론에 대한 연구가 필요하다고 볼 수 있다. 따라서, 본 연구에서는 암 유전자 발현 데이터의 해석을 용이하게 하기 위해 개별 검체 내에서의 유전자 집합의 활성도를 추론하고 유전자 집합 간의 시너지 분석을 활용하여 발암 과정에서 나타나는 세포의 생물학적 기능들 사이의 협력 및 의존 관계를 밝혀 내고자 하였으며, 발암 과정에서의 생물학적 기능들 사이의 협력 및 의존 관계 모델을 활용하여 주어진 검체를 효과적으로 분류할 수 있는 유전자 집합 기반의 불리언 규칙(Boolean rules)을 추론하는 방법론을 제시하였다. 또한, 제시한 방법론의 유용성을 보이기 위해 제시한 방법론을 전립선 암 유전자 발현 데이터에 적용하여 Glutathione 대사과정과 Prostaglandin 합성 조절과정에 관련된 유전자들의 발현 양이 동시에 줄어드는 현상이 대부분의 전립선 암 환자 조직에서 발생하는 규칙 등 모두 72개의 유전자 집합 불리언 규칙을 추론하였다.

서지기타정보

서지기타정보
청구기호 {DBiS 10005
형태사항 vii, 86 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 박인호
지도교수의 영문표기 : Kwang-Hyung Lee
지도교수의 한글표기 : 이광형
수록잡지명 : "Inference of Combinatorial Boolean Rules of Synergistic Gene Sets from Cancer Microarray Datasets". Bioinformatics, Bioinformatics Advance Access published online on , N/A(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References: p. 65-86
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서