서지주요정보
Genetic information based feature selection algorithm for identification of metastatic melanoma = 전이성 흑색종 식별을 위한 유전 정보 기반 특징 선택 알고리즘
서명 / 저자 Genetic information based feature selection algorithm for identification of metastatic melanoma = 전이성 흑색종 식별을 위한 유전 정보 기반 특징 선택 알고리즘 / Hyein Seo.
저자명 Seo, Hyein ; 서혜인
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036786

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DEE 20097

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

리뷰정보

초록정보

In this thesis, we aim to analyze various types of genetic information and find important genetic information related to metastasis of melanoma. Understanding the causes and principles of metastasis is an important issue in cancer research because cancer metastasis makes treatment difficult and is the leading cause of cancer-related death. In particular, melanoma, a type of skin cancer, is frequent in Caucasian and is relatively rare in Asian and African-American. Melanoma should be understood comprehensively because of the high risk of death if it is diagnosed as metastatic tumor or when it generates metastasis. With the development of genetic information acquisition technologies such as DNA sequencing and microarray, a large amount of genetic information can be quickly obtained with low cost. Therefore, cancer genetics, which is a cancer research based on analysis of genetic information, is actively being conducted. Genetic information that is found to be specific to an individual determines an individual's characteristics and also is known to have a high correlation with cancer. Furthermore, it is an important criterion for the selection of effective treatment. However, it is very difficult to find a small number of cancer-related information from a large amount of genetic information. Therefore, in this thesis, we find important genetic information related to the metastasis of melanoma by analyzing various types of genetic information using machine learning, neural network, optimization, and search algorithm. In this dissertation, we analyze different types of genetic information and attempt to develop the selection method of important features considering the characteristics of genetic information. In this process, the relationship between the genetic information is considered to derive the minimum information related to the melanoma metastasis instead of analyzing the genetic information independently. In addition, by applying the feature selection technique that selects important information without modifying data, the characteristics of the cancer are identified through the selected feature, and it can be actively utilized in the diagnosis or treatment of actual cancer. First, the CNV set that can distinguish primary tumors from metastatic tumors is derived from copy number variation (CNV), which is a type of structural variation of the genome. CNV is the variation in the number of repetitions of a particular section of a genome sequence compared to the reference genome and is classified as deletion or duplication. To derive the CNV set for the identification of primary and metastatic tumors, a forward selection-based search algorithm is utilized. At this time, the deletion and duplication are separated, and CNV commonly found in primary tumors and metastatic tumors are selected, separately. In addition, the optimization is conducted to minimize the number of selected CNVs while maintaining identification performance. Second, short somatic variants such as single nucleotide variation (SNV) and insertion and deletion (Indel) are analyzed and melanoma metastasis related variants are derived. SNV and InDel are shorter variants and more frequently found compared to CNV. SNV means the change of one nucleotide compared to the reference genome, and Indel refers the addition or deletion of one or more consecutive nucleotides compared to the reference genome. By applying the correlation-based feature selection, somatic variants that are highly correlated with primary tumors or metastatic tumors are selected. Then, the selected variants have a low correlation each other. In order to exclude somatic variants related to both tumors, two correlation filters are simultaneously applied using multiobjective optimization. Then, it is possible to remove additional variants that are related to both contradictory characteristics while selecting the variants related to one of the activation and deactivation of melanoma metastasis. In addition, in order to alleviate the computational complexity problem caused by the size of the data, candidate variants are pre-selected taking into account the average correlation value of each variant before selecting the final important variants. Third, gene expression profile is analyzed to derive gene signatures for melanoma metastasis. Unlike CNV, SNV, and Indel, which are generally obtained using DNA sequencing, expression profile can also be obtained using microarray. In the case of microarray-based expression profile, simultaneous analysis of a large number of genes and samples is possible Also, it has been studied in various fields because it can present simple and reliable analysis results compared to DNA sequencing. To select gene signatures related to melanoma metastasis among gene expression profile, an embedded feature selection method is proposed. In the proposed method, feature selection based on linear regression is performed to select gene signatures without distortion of raw data, and classification is performed by applying the neural network. In this case, multiple linear regression models can be integrated with boosting, and a powerful feature selection model can be generated. Also, we use repeatedly the proposed boosted feature selection to minimize the number of selected features. However, the training and integrating multiple regression models can cause the high computational complexity problem. To alleviate computational complexity, we only reuse models that were useful in previous feature selection instead of using all the regression models repeatedly.

본 논문은 다양한 형태의 유전 정보를 분석하고 흑색종 (melanoma)의 전이 (metastasis)와 관련한 유전 정보를 찾아내는 것을 목표로 한다. 암의 전이는 치료를 어렵게 하며 암 관련 사망의 대표적인 원인이기 때문에 전이의 원인 및 원리를 이해하는 것은 암 연구에 있어 중요하다. 특히, 피부암의 일종인 흑색종은 백인에게서 빈발하며 황인종과 흑인종에서는 상대적으로 드물지만, 전이성 종양으로 진단되거나 전이가 진행하는 경우 사망 위험이 높아 이에 대한 충분한 이해가 필요하다. DNA sequencing 및 microarray와 같은 유전 정보 획득 기술의 발달로 많은 양의 유전 정보를 저렴한 비용으로 빠르게 획득할 수 있게 됨에 따라 유전 정보의 분석을 기반으로 한 암 연구 분야인 cancer genetics 연구가 활발히 이루어지고 있다. 개인 특이적으로 발견되는 유전 정보는 개인의 특성을 결정할 뿐만 아니라, 암과의 연관성도 높은 것으로 알려져 있으며 효과적인 치료제 선택에서도 중요한 기준이 된다. 그러나 대용량의 유전 정보로부터 암과 관련한 소수의 정보들을 발견하는 것은 매우 어려운 문제이다. 따라서 본 학위 논문에서는 다양한 형태의 유전 정보를 optimization, search algorithm, machine learning, neural network와 같은 기법을 활용하여 분석함으로써 흑색종의 전이와 관련한 중요 유전 정보를 찾아내는 연구를 진행한다. 학위 논문의 각 장에서는 각각 다른 유형의 유전 정보를 분석하며, 유전 정보의 특성을 고려한 중요 정보 선택 방안을 제시하고자 한다. 그 과정에서, 유전 정보를 독립적으로 분석하는 대신 유전 정보 상호 간의 관계를 고려하여 흑색종의 전이와 관련한 최소의 정보를 도출한다. 또한, 유전 정보를 변형하지 않고 중요한 정보를 선택하는 feature selection 기법을 적용함으로써 찾아낸 정보를 통해 암의 특성을 파악하고, 실제 암의 진단이나 치료제 개발에 적극적으로 활용될 수 있도록 한다. 첫 번째로, 유전체의 구조적 변이의 일종인 copy number variation (CNV)들 중에서 흑색종의 원발 종양 (primary tumor)과 전이 종양 (metastatic tumor)을 구별하는 데 효과적인 CNV set을 도출한다. CNV는 reference genome 대비 특정 genome sequence의 일부 구간의 반복 수가 달라지는 변이로, deletion 혹은 duplication로 구분된다. 전이 종양의 식별을 위한 CNV set을 도출하기 위해 forward selection 기반의 search algorithm을 활용한다. 이 때, deletion과 duplication을 구별하며 원형 종양에서 공통적으로 발견되는 CNV 및 전이 종양에서 공통적으로 발견되는 CNV를 구별하여 찾아낸다. 또한, optimization을 적용하여 식별 성능을 유지하면서 선택되는 CNV의 수를 최소화하는 연구를 진행한다. 두 번째로, single nucleotide variation (SNV) 및 insertion and deletion (Indel)과 같은 짧은 길이의 변이를 분석하여 흑색종의 전이와 관련한 변이들을 도출한다. SNV와 InDel은 CNV 대비 길이가 짧으며 빈번히 발견되는 변이들로 각각 reference genome 대비 nucleotide 하나의 변화, 하나 이상의 연속된 nucleotide들의 추가 혹은 삭제를 의미한다. Correlation-based feature selection 기법을 적용하여 원발 종양 혹은 전이 종양과의 연관성이 높으면서 동시에 선택되는 변이들 상호 간의 상관 관계는 낮은 변이들을 선택한다. 이 때, 두 종양 모두와 연관성이 높은 변이들을 제외하기 위해 multiobjective optimization을 적용하여 두 개의 correlation filter를 동시에 고려한다. 이를 통해 전이의 활성 혹은 비활성과 관련된 변이들을 모두 고려하면서 상반된 특성과 동시에 연관성이 높은 잉여 변이를 제거할 수 있다. 또한, 데이터의 크기로 인해 야기되는 computational complexity 문제를 완화하기 위해, 각 변이의 평균적인 correlation 특성을 고려하여 후보 변이를 선택한 뒤 최종적으로 흑색종의 전이와 관련한 중요 변이를 선택한다. 세 번째로, gene expression profile을 분석하여 흑색종의 전이와 관련된 gene signature를 도출하는 연구를 진행한다. 일반적으로 DNA sequencing 기법을 활용하여 획득하는 CNV, SNV, Indel과 달리 expression profile은 microarray를 활용해서도 획득할 수 있다. 이러한 microarray 기반 expression profile의 경우, 많은 수의 유전자 및 샘플에 대한 동시 분석이 가능하며 DNA sequencing 대비 간편하면서도 신뢰도 높은 분석 결과를 제시할 수 있어 다양한 분야에서 연구되어 오고 있다. Gene expression profile 중 흑색종의 전이와 관련된 gene signature를 선택하기 위하여 embedded feature selection 방안을 제시한다. 제안 방안에서는 profile data의 왜곡 없이 gene signature를 선택하기 위해 linear regression 기반의 feature selection을 수행하며 neural network을 적용하여 classification을 수행한다. 이 때, boosting을 적용하여 여러 개의 linear regression model을 통합하고 하나의 강력한 feature selection model을 도출할 수 있다. 또한, 제안한 boosted feature selection을 반복적으로 수행함으로써 선택되는 feature의 수를 최소화 한다. 여러 개의 regression model을 훈련시키고 이를 통합하는 과정에서 computational complexity 문제가 발생하게 되며, 이를 완화하기 위해 regression model을 모두 반복해서 사용하는 대신 이전 feature selection에서 유용했던 model만을 선택하여 반복 사용하는 방안을 제시한다.

서지기타정보

서지기타정보
청구기호 {DEE 20097
형태사항 vi, 110 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 서혜인
지도교수의 영문표기 : Dong-Ho Cho
지도교수의 한글표기 : 조동호
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 105-110
주제 Genetic information
Melanoma
Metastasis
Feature selection
Search algorithm
Optimization
Machine learning
Neural network
유전 정보
흑색종
전이
특징 선택
선택 알고리즘
최적화
머신 러닝
인공 신경망
QR CODE qr code