As DNA sequencing technologies advance, the need for precise yet cost-effective genome analysis pipelines becomes increasingly vital. This dissertation unveils novel methodologies leveraging artificial intelligence (AI) and machine learning (ML) to enhance the two most critical steps in the genome analysis pipeline: read alignment and variant calling. Initially, we present BWA-MEME, an ML-augmented read alignment software. By employing learned indices, this software enhances the exact match search during the seeding phase—addressing a significant bottleneck in short-read alignment. Subsequently, we address challenges inherent to deep learning-based variant callers. These challenges encompass their reliance on vast labeled datasets and their susceptibility to diverse error profiles presented by different sequencing techniques. We devise a semi-supervised training approach that not only utilizes unlabeled data to learn error profiles but also incorporates a domain adaptation technique to minimize discrepancies arising from diverse error profiles. Together, these methods carve out novel pathways in read alignment and variant calling, underscoring the transformative potential of AI and ML within the genome analysis pipeline.
DNA 시퀀싱 기술이 발전함에 따라, 정밀하면서도 비용 효율적인 유전체 분석 파이프라인의 필요성이 점점 더 중요해지고 있다. 본 논문은 인공지능(AI)과 머신러닝(ML)을 유전체 분석 파이프라인의 가장 중요한 두 가지 단계 유전체 정렬과 변이 탐지에 적용하여 향상시키는 방법론을 제시한다. 먼저 머신러닝을 이용하여 가속화된 유전체 정렬 소프트웨어 BWA-MEME을 제시한다. 이 소프트웨어는 learned-index를 사용함으로써 문자열 일치 알고리즘을 향상시켜 유전체 정렬에서 병목 지점인 seeding 단계를 개선한다. 다음으로 딥러닝 기반 변이 탐지 소프트웨어의 레이블이 있는 데이터에 대한 높은 의존도와 다양한 시퀀싱 기술에서 생성되는 서로 다른 오류에 대한 취약성을 개선한다. 제시된 준 지도 훈련 접근 방식은 레이블이 없는 데이터를 활용하여 오류 프로파일을 학습할 뿐만 아니라 도메인 적응 기술을 통합하여 다양한 오류 프로파일에서 발생하는 도메인 불일치를 최소화하였다. 결론적으로, 본 학위 논문은 유전체 분석 파이프라인에 AI와 ML의 새로운 활용 가능성을 제시한다.