서지주요정보
Bio marker derivation for disease screening using genetic mutation subsets and characteristics based on selective searching algorithm = 선별 탐색 알고리즘 기반 유전변이 집합 및 특성을 이용한 질병 판별 마커 도출
서명 / 저자 Bio marker derivation for disease screening using genetic mutation subsets and characteristics based on selective searching algorithm = 선별 탐색 알고리즘 기반 유전변이 집합 및 특성을 이용한 질병 판별 마커 도출 / Gyu-Bum Han.
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033276

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 19038

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

In this thesis, we try to extract a disease screening marker based on genetic mutations related to diseases from the whole genome or exome sequencing data. Although there are many studies for finding disease-related genetic characteristics from the genomic data whose size are tens to hundreds of gigabytes, the actual bio markers used in the clinical medicine occupy only a small part of the total information. This is because only partial genetic information is considered such as some genes in the cases of existing methods. Additionally, a mutual relationship of mutations have been rarely studied. Therefore, in this thesis, we propose a selective searching algorithm which examines the relationship between genetic characteristics and a disease from the whole genome or exome data by considering the combination of genetic mutations. First, we propose a searching algorithm for a combination of disease-related mutations based on the whole exome sequencing data. Here, we consider point mutations such as SNVs and InDels. In the extraction algorithm, we filter candidate mutations by applying the learning concept. The entire samples are divided into training and test samples, and marker extraction and validation samples are randomly selected from the training samples. From marker extraction samples, we extract disease-related mutations that have many changes in disease samples and few changes in normal samples. Then, we apply extracted disease-related mutations to validation samples, and select only mutations whose accuracy is maintained in validation samples. The random selection of the marker extraction samples and the validation samples is repeated until the number of selected mutations is converged. Then, we propose an objective function-based searching algorithm to find a combination of disease-related mutations. The combination of disease-related mutations is obtained by applying the objective function-based searching algorithm to extracted candidate mutations related to a disease. Finally, we apply the proposed searching algorithms for the combination of disease-related mutations to whole exome sequencing data of acute myeloid leukemia (AML). Then, we analyze the validity of the proposed marker and extracted genes. To check the validity of the proposed marker, the proposed threshold-based classification, support vector machine (SVM) and convolutional neural network (CNN) are used. Second, we propose a searching algorithms for a combination of the disease-related mutations based on the whole genome sequencing data which includes exome, intron and inter-genic regions. The extraction process of candidate mutations is the same as the whole exome data-based method. We newly propose the objective function of the searching algorithm for the whole genome sequencing data. In the case of the whole genome sequencing data, the number of candidate mutations is quite large value compared to the whole exome sequencing data. Thus, the objective function is redefined in the consideration of the classification accuracy, difference, variance for disease and normal groups in training samples. In addition, we extract the disease screening marker from major genes and their inter-genic regions. To confirm the performance of the disease screening marker based on the whole genome sequencing data, we observe classification results for test samples by applying the proposed threshold, SVM and CNN methods. Finally, we compare the whole exome data-based marker with the whole genome data-based marker.

본 논문은 전체 유전체 또는 엑솜 염기서열 데이터로부터 질병과 관련된 유전 변이 집합 및 특성을 추출하여 질병 판별 마커를 도출하는 것을 목적으로 한다. 수십에서 수백기가의 크기를 가지는 유전체 데이터로부터 질병과 관련된 유전적 특성을 찾아내기 위한 노력은 계속 되고 있지만, 실제 임상에서 사용되고 있는 마커는 극히 일부분이다. 기존방안들의 경우에는 일부 유전자에 대한 유전 변이 정보만을 고려하였고, 변이간의 관계를 계산하기 위한 노력이 드물다. 이에 본 논문에서는 전체 유전체 또는 전체 엑솜 데이터로 부터 중요도를 기반으로 유전변이를 필터링하고, 변이간의 관계를 계산할수 있는 목적함수를 정의하여 질병 관련 변이 집합 및 특성을 추출할 수 있는 선별 탐색 알고리즘을 제안한다. 가장 먼저, 전체 엑솜 부분에 대한 시퀀싱 데이터를 기반으로 질병과 관련된 유전 변이 집합을 추출하는 알고리즘을 제안한다. 이때, 고려하는 유전변이는 점 돌연변이인 단일염기변이와 삽입 및 결실이다. 가장먼저, 학습 개념을 도입하여 후보 변이들을 필터링 한다. 전체 샘플을 학습 샘플과 테스트 샘플로 나누고, 학습 샘플에서 마커추출 샘플과 검증 샘플을 랜덤하게 선택한다. 마커 추출 샘플로부터 질병 샘플에서는 많은 변화를 보이고, 정상 샘플에서는 적은 변화를 보이는 변이들을 추출한 뒤, 검증 샘플에 대입하여 정확도가 유지되는지 확인 한다. 추출 되는 변이수가 수렴할때 까지 마커 추출 샘플과 검증 샘플의 랜덤 선택을 반복한다. 그리고 질병 관련 변이 집합을 찾기위한 목적함수 기반의 서칭 알고리즘을 제안하고, 추출된 마커 후보 변이들에 적용하여 변이 집합을 추출한다. 이때 목적함수는 변이집합이 얼마나 마커 추출 샘플 내 질병 및 정상 샘플을 분류하는가 이다. 제안하는 질병관련 유전 변이 집합 추출 알고리즘을 실제 급성 골수 백혈병 환자에 대한 전체 엑솜 염기서열 데이터에 도입하여 마커의 유효성을 확인하고 추출 유전자를 분석한다. 마커의 유효성을 확인하는 방법으로는 논문에서 제안하는 임계값 기반의 분류, SVM 및 CNN을 적용하여 성능을 분석한다. 두 번째로, 엑솜, 인트론, 비유전자 부분이 포함된 전체 유전체 시퀀싱 데이터를 기반으로 질병과 관련된 유전 변이 집합을 추출하는 알고리즘을 제안한다. 고려하는 변이 종류 및 학습개념을 도입한 후보 변이 추출과정은 전체 엑솜 데이터 기반 방법과 같으며, 변이 집합을 찾기위한 목적함수를 새롭게 제안한다. 전체 엑솜 데이터와 비교하여 전체 유전체 데이터의 경우 같은조건에서 추출되는 후보변이의 수가 상당히 많기 때문에, 마커샘플내 질병 및 정상 샘플의 분류정도, 질병 및 정상샘플 그룹간의 거리, 질병 및 정상 샘플 그룹 내 분산을 고려하여 목적함수를 재정의 한다. 추가적으로 주요한 유전자 전후의 비유전자 부분을 포함하여 마커 추출을 진행한다. 전체 유전체 염기서열 데이터 기반의 질병 판별 마커의 정확도를 확인하기 위하여, 논문에서 제안하는 임계값 기반의 분류, SVM 및 CNN 을 적용하여 검증 샘플에 대한 분류 결과를 확인한다. 최종적으로 전체 엑솜 데이터 기반의 질병 판별 마커와 전체 유전체 데이터 기반의 질병 판별 마커를 비교 분석한다.

서지기타정보

서지기타정보
청구기호 {DEE 19038
형태사항 vi, 78 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한규범
지도교수의 영문표기 : Dong-Ho Cho
지도교수의 한글표기 : 조동호
수록잡지명 : "Genome classification improvements based on k-mer intervals in sequences". Genomics, (2018)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 71-74
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서