서지주요정보
Enhancing genome analysis pipeline with AI and ML = 인공지능/머신러닝을 이용한 유전체 분석 파이프라인 향상에 관한 연구
서명 / 저자 Enhancing genome analysis pipeline with AI and ML = 인공지능/머신러닝을 이용한 유전체 분석 파이프라인 향상에 관한 연구 / Young-mok Jung.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042617

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As DNA sequencing technologies advance, the need for precise yet cost-effective genome analysis pipelines becomes increasingly vital. This dissertation unveils novel methodologies leveraging artificial intelligence (AI) and machine learning (ML) to enhance the two most critical steps in the genome analysis pipeline: read alignment and variant calling. Initially, we present BWA-MEME, an ML-augmented read alignment software. By employing learned indices, this software enhances the exact match search during the seeding phase—addressing a significant bottleneck in short-read alignment. Subsequently, we address challenges inherent to deep learning-based variant callers. These challenges encompass their reliance on vast labeled datasets and their susceptibility to diverse error profiles presented by different sequencing techniques. We devise a semi-supervised training approach that not only utilizes unlabeled data to learn error profiles but also incorporates a domain adaptation technique to minimize discrepancies arising from diverse error profiles. Together, these methods carve out novel pathways in read alignment and variant calling, underscoring the transformative potential of AI and ML within the genome analysis pipeline.

DNA 시퀀싱 기술이 발전함에 따라, 정밀하면서도 비용 효율적인 유전체 분석 파이프라인의 필요성이 점점 더 중요해지고 있다. 본 논문은 인공지능(AI)과 머신러닝(ML)을 유전체 분석 파이프라인의 가장 중요한 두 가지 단계 유전체 정렬과 변이 탐지에 적용하여 향상시키는 방법론을 제시한다. 먼저 머신러닝을 이용하여 가속화된 유전체 정렬 소프트웨어 BWA-MEME을 제시한다. 이 소프트웨어는 learned-index를 사용함으로써 문자열 일치 알고리즘을 향상시켜 유전체 정렬에서 병목 지점인 seeding 단계를 개선한다. 다음으로 딥러닝 기반 변이 탐지 소프트웨어의 레이블이 있는 데이터에 대한 높은 의존도와 다양한 시퀀싱 기술에서 생성되는 서로 다른 오류에 대한 취약성을 개선한다. 제시된 준 지도 훈련 접근 방식은 레이블이 없는 데이터를 활용하여 오류 프로파일을 학습할 뿐만 아니라 도메인 적응 기술을 통합하여 다양한 오류 프로파일에서 발생하는 도메인 불일치를 최소화하였다. 결론적으로, 본 학위 논문은 유전체 분석 파이프라인에 AI와 ML의 새로운 활용 가능성을 제시한다.

서지기타정보

서지기타정보
청구기호 {DEE 24005
형태사항 vi, 69 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 정영목
지도교수의 영문표기 : Dongsu Han
지도교수의 한글표기 : 한동수
공동지도교수의 영문표기 : Young Seok Ju
공동지도교수의 한글표기 : 주영석
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 65-69
주제 Artificial intelligence
Machine learning
High-performance computing
Genomics
Bioinformatics
인공지능
머신러닝
고성능 컴퓨팅
유전체
바이오인포매틱스
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서