Compositional data analysis has been garnering more focus, particularly due to its significance in human microbiome studies. Traditional techniques often struggle with recent data sets as they are high-dimensional and constituted of a significant proportion of zeros. We approach this problem using kernel methods, which naturally handle zeros in data, and develop dimension reduction methods to alleviate the curse of dimensionality and enhance interpretability in subsequent analyses. In this thesis, we introduce three projects utilizing kernel methods for compositional data.
In Project 1, we demonstrate that the prevalent approach of log-ratio transformation, performed after zero-replacement, produces significant distortions in the marginal distribution of data. Instead, we suggest employing kernel methods based on geometric considerations, eliminating the need for zero replacements. In Project 2, we propose a kernel-based variable selection method of compositional data, arguing the use of amalgamation over subcomposition. In Project 3, we extend the methodology from the second project to develop a novel method for reducing the dimension of compositional data through a more relaxed version of amalgamation.
구성비 데이터의 분석은 최근 인간 마이크로바이옴 연구에서의 중요성 때문에 특히 주목받고 있다. 이러한 데이터 세트는 고차원적이고 상당수의 0으로 구성되어 있기 때문에 기존의 방법론으로는 어려움을 겪는 경우가 많다. 이를 극복하기 위해 0을 자연스럽게 처리하는 커널 방법을 사용하여 이 문제에 접근하고 고차원성을 완화하기 위한 차원 축소 방법들을 개발하였다. 이 논문에서는 구성비 데이터에 커널 방법을 활용하는 세 가지 프로젝트를 소개한다.
프로젝트 1에서는 0 값들을 치환한 후 로그-비율 변환을 수행하는 만연한 접근 방식이 데이터의 기하 형상에 심각한 왜곡을 초래한다는 것을 보여준다. 대안으로, 기하학적 고려 사항에 기반한 커널 방법을 사용하여 제로 치환이 필요 없는 방법을 제안한다. 프로젝트 2에서는 구성비 데이터의 변수 선택 방법론을 커널에 기반하여 제시하고, 부분 컴포지션보다 병합을 사용해야 한다고 주장한다. 프로젝트 3에서는 두 번째 프로젝트의 방법론을 확장하여 병합에 대한 보다 완화된 접근 방식을 통해 구성비 데이터의 새로운 차원 축소 방법을 개발한다.