Cancer occurs on the accumulation of various mutational processes and each mutational process has its unique mutation patterns on the genome, which is called the mutational signature. Extracting the mutational signatures through analyzing the mutation count data in the cancer genome has received much attention as we can identify the origin of cancer with the extracted signatures. While many researchers use nonnegative matrix factorization and latent Dirichlet allocation as a basic method for mutational signature analysis, the approaches only analyze the co-occurrence pattern of mutations and do not fully utilize sample-level information and contextual information of mutations. To overcome these limitations, we propose the variant of latent Dirichlet allocation for extracting mutational signatures with the help of the information. We show that the model can capture two mutational signatures in Alzheimer’s disease data that are resembled the signatures in initially reported. In addition, through the analysis on Alzheimer’s dataset, we demonstrate that using sample-level information improves qualitative interpretability of sample-wise signature proportions.
암은 유전체 내에 일어나는 다양한 돌연변이의 축적으로 일어난다. 그리고, 각각의 돌연변이 인자들은 돌연 변이 시그니쳐라고 불리는 특유의 돌연변이 패턴을 가지고 있다. 샘플에 존해하는 돌연변이 시그니쳐들을 알아낸다면 해당 샘플이 가진 암의 원인을 밝혀낼 수 있기 때문에, 유전체 내에 존재하는 돌연변이의 개수 를 분석하여 각 개인에게 존재하는 돌연변이 시그니쳐를 찾아내는 분석법은 많은 관심을 받고 있다. 많은 연구자들이 분석을 위해 비음성행렬분해 방법이나 잠재 디리클레 할당이라는 두 가지 알고리즘을 기초적인 방법론으로서 사용하지만, 이 방법들은 유전체 내에서 돌연변이가 일어나는 패턴에만 집중하고 있고, 샘 플들에 대한 사전 정보나 돌연변이가 일어나는 상황에 대한 정보는 사용하지 않고 있다. 이러한 한계점을 극복하기 위해서 우리는 샘플에 대한 정보와 돌연변이가 일어나는 상황적 정보를 동시에 활용하는 잠재 디리클레 할당 모델의 변형된 모델을 제시한다. 우리는 이 모델을 이용해서 알츠하이머 환자의 돌연변이 데이터를 분석하였고 생물학계에 알려진 두 개의 시그니쳐를 추출하는 것을 보인다. 더불어, 알츠하이머 데이터에서의 분석을 통해서, 우리의 모델이 활용하는 샘플들의 정보가 샘플마다의 시그니쳐 분포에 대한 정성적인 해석에 도움을 준다는 것을 확인 하였다.