서지주요정보
Computational methods for discovering correlated gene expression patterns with parallelized individual dimension-based clustering of microarray data = 단일 차원 군집 분석의 병렬 처리를 이용한 마이크로어레이 데이터의 유전자 발현 패턴 탐색 방법
서명 / 저자 Computational methods for discovering correlated gene expression patterns with parallelized individual dimension-based clustering of microarray data = 단일 차원 군집 분석의 병렬 처리를 이용한 마이크로어레이 데이터의 유전자 발현 패턴 탐색 방법 / Tae-gyun Yun.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026797

소장위치/청구기호

학술문화관(문화관) 보존서고

DICE 13022

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Microarray analysis is used to monitor expression patterns of tens of thousands genes simultaneously. It is a significant process to identify correlated gene expression patterns in microarray analyses as it helps to reveal novel function of genes, gene expression regulation and concerted gene functions in pathogenesis. Although large microarray datasets have recently ap-peared to be common, existing methods are not able to process large microarray datasets due to their considerable computational complexity and memory requirements. Furthermore, typical clustering methods construct oversimplified clusters that ignore subtle but meaningful changes in the expression patterns in large microarray datasets. Thus, in order to examine extensive micro-array datasets, it is required to develop an efficient clustering method that is able to identify not only absolute expression differences but also expression profile patterns at different expression levels. Moreover, a number of biclustering algorithms have been developed to search biclusters that have similar gene expression patterns in a subset of conditions. However, limitations are found as correlated gene expression patterns cannot be highlighted by those algorithms; they merely focus on finding similar gene expression levels. Although a few correlation-based biclustering algorithms have been proposed, they are able to extract biclusters in a limited search space and produce uneven biclustering results. In this thesis, thus, we propose two significant gene expression pattern mining algorithms that we devised, CLIC, and BICLIC in order to overcome the shortcomings found in conventional algorithms, Firstly, an individual dimension-based clustering method, CLIC, will be presented, which is able to discover globally correlated patterns of microarray data. The most significant advantage of conducting CLIC is that not only is it able to meet particular requirements of clustering analysis but also not limited to large microarray datasets. CLIC is based on a novel concept in which genes are initially clustered in individual dimensions and then the ordinal labels of clusters in each dimension are used for further full dimension-wide clustering. CLIC enables iterative sub-clustering into more homogeneous groups and identification of common expression patterns among the genes separated in different groups due to the large differences among the expression levels. In addition, computation of clustering is parallelized, the number of clusters is automatically detected, and functional enrichment for each cluster and pattern are provided. Secondly, another novel method that we developed, BICLIC, will be elaborated, which is able to discover comprehensive sets of local correlated patterns in microarray data. BICLIC out-performed competing biclustering algorithms by completely recovering implanted biclusters in simulated datasets with a variety types of correlated patterns: shifting, scaling, and shifting-scaling. Furthermore, in real yeast microarray dataset, we also found that BICLIC is able to cap-ture much more comprehensive sets of biclusters that are significantly enriched to a considerable number of diverse sets of biological terms than other competing biclustering algorithms do. We proved that the proposed BICLIC algorithm provides significant benefits in finding comprehensively correlated patterns and their functional implication in any size of gene expression dataset. Lastly, as a further study to utilize BICLIC, my colleague Hwang and we together ana-lyzed a combined human brain gene expression data in relation to cognitive disorders. BICLIC was applied to find biologically meaningful correlated gene expression patterns in the given da-taset. The result concluded that comprehensive sets of biclusters were found, and those biclus-ters showed implications of extensive genes and disease-disease associations that corroborate and even exceed previous findings.

마이크로어레이 분석은 수 천 개의 유전자의 발현량을 관찰하기 위해 사용된다. 이러한 분석은 상과 유전자 발현 패턴을 찾아내어 유전자의 새로운 기능과 유전자 발현의 조절 관계를 밝혀내고, 질병에 공통적으로 작용하는 유전자의 기능을 예측하는데 사용될 수 있는 중요한 과정이다. 최근 사이즈가 큰 마이크로어레이 데이터가 생산되고 있지만 기존 방법으로는 연산 복잡성 및 요구되는 메모리가 과다하여 큰 사이즈의 마이크로어레이 데이터를 분석할 수 없다는 문제점을 보이고 있다. 더불어 일반적인 군집분석 방법은 사이즈가 큰 마이크로어레이 데이터를 분석할 때 과도하게 단순화된 군집을 결정함에 따라 유전자 발현의 변화량이 작지만 의미 있는 유전자를 분석에서 제외할 수 있다는 한계를 지니고 있다. 따라서 마이크로어레이 데이터의 정확한 분석을 위해서는 절대적인 발현량의 차이만이 아닌 유전자 발현 패턴을 분석할 수 있고 효율적으로 분석을 수행할 수 있는 군집 분석 방법의 개발이 요구된다. 최근 전체 컨디션이 아닌 일부 유의미한 컨디션 하에서만 유사한 유전자 발현 패턴을 보이는 유전자 그룹을 찾기 위해 많은 수의 바이클러스터링 방법이 개발되어 왔다. 그러나 이러한 방법은 상관 유전자 발현 패턴을 찾기 보다 유전자 발현 값이 유사한 유전자 그룹을 찾는데 초점을 맞추어왔다. 일부 상관 계수 기반 바이클러스터링 기법이 개발되었으나 제한된 검색 공간에서만 바이클러스터를 추출하고 일관되지 않은 바이클러스터링 결과를 보인다는 문제점을 가지고 있다. 본 연구에서 본인은 기존의 유전자 발현 패턴 분석 알고리즘에서 발견된 문제점을 극복하기 위하여, CLIC과 BICLIC이라는 2개의 유전자 발현 패턴 발굴 알고리즘을 제안했다. 첫째로 CLIC은 단일 차원 군집 분석 기반 알고리즘으로 마이크로어레이 데이터의 전역적 상관 유전자 발현 패턴 분석에 사용될 수 있다. CLIC은 일반적인 사이즈의 마이크로어레이 데이터는 물론 사이즈가 큰 마이크로어레이 분석에도 사용될 수 있다. CLIC은 유전자가 단일 차원에서 군집화되고 군집화된 인덱스를 이용하여 최종 군집 분석을 수행한다는 고유의 개념에 근거하고 있다. CLIC은 유전자 발현값의 차이가 큰 데이터에 적용하여 반복적으로 하위 군집분석 과정을 수행해 더 동질화된 군집으로 구분할 수 있다는 특징을 가지고 있다. 게다가 군집 분석 과정의 병렬화를 통하여 효율적인 분석이 가능하고 군집 개수를 자동적으로 결정해주며 찾아진 군집에 대하여 기능 분석을 수행해 준다는 장점을 가지고 있다. 이 연구에서 제안한 두번째 방법은 BICLIC으로 포괄적이고 다양한 지역적 상관 유전자 발현 패턴을 발견하는데 사용될 수 있다. 시뮬레이션 데이터를 대상으로 실험을 수행했을 때 BICLIC은 경쟁 바이클러스터링 방법에 비해 다양한 상관 발현 패턴에서 더 높은 수준의 정확성을 보인다. 게다가 효모 마이크로어레이를 대상으로 실험을 수행하였을 때 BICLIC은 경쟁 방법에 비해 더 다양하고 생물학적으로 의미 있는 유전자 모듈을 발견했다. 나는 이 실험을 통하여 BICLIC이 어떠한 사이즈의 유전자 발현데이터에서도 다양하고 의미 있는 바이클러스터를 발굴할 수 있음을 보였다. 마지막으로 연구실의 동료 황태호 군과 함께 인지 기능 저하에 관련된 유전자 발현 데이터를 분석했다. 분석 결과 BICLIC은 해당 데이터에서 인지 기능 저하와 관련되고 다양한 종류의 뇌 질환 환자에 걸쳐 공동발현양상을 나타내는 생물학적으로 의미 있는 많은 수의 질환공통 기능 모듈을 찾아내었다.

서지기타정보

서지기타정보
청구기호 {DICE 13022
형태사항 vii, 103 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤태균
지도교수의 영문표기 : Gwan-Su Yi
지도교수의 한글표기 : 이관수
수록잡지명 : "CLIC: clustering analysis of large microarray datasets with individual dimension-based clustering". Nucleic Acids Research, 38, W246-W253(2010)
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 57-95
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서