Single-cell RNA sequencing is used to analyze the gene expression data of individual cells, thereby adding
to existing knowledge of biological phenomena. Accordingly, this technology is widely used in numerous
biomedical studies. Recently, the variational autoencoder has emerged and has been adopted for the
analysis of single-cell data owing to its high capacity to manage large-scale data. Many different variants
of the variational autoencoder have been applied, and have yielded superior results. However, because it is
nonlinear, the model does not provide parameters that can be used to explain the underlying biological
patterns. In this thesis, we propose an interpretable nonnegative matrix factorization method that
decomposes parameters into those shared across cells and those that are cell-specific. Effective nonlinear
dimension reduction was achieved via a variational autoencoder applied to the cell-specific parameters.
In addition to achieving nonlinear dimension reduction, our model could estimate the cell-type-specific
gene expression. To improve the estimation accuracy, we introduced log-regularization, which reflects
the single-cell property. Overall, our approach displayed excellent performance in a simulation study and
in real data analyses, while maintaining good biological interpretability.
단일 세포 리보핵상 시퀀싱은 각각의 세포들의 유전자 발현을 분석하기 위해 사용된다. 실제로 이 기술은
여러 생의학 연구에 사용된다. 변분 오토인코더는 대규모 데이터를 다루는 데 사용되어서 최근, 단일 세포
데이터 분석에 사용되고 있다. 다양한 변분 오토인코더의 변형들이 사용되었고, 실제로 좋은 결과를 얻어냈
다. 그러나 변분 오토인코더는 비선형이기에, 생물학적 패턴을 설명할 수 있는 매개 변수를 제공하지 않는다.
이 학위 논문에서는, 매개 변수를 모든 세포들이 공유하는 것과 각각의 세포들만의 것으로 분해하는 해석
가능한 비음수 행렬분해를 제안한다. 각각의 세포들만의 매개 변수에 변분 오토인코더를 사용하는 것으로
추가적으로 비선형 차원 축소를 얻어낸다. 비선형 차원 축소뿐만 아니라, 우리 모델은 세포 유형마다의
유전자 발현을 예측할 수 있다. 예측 결과의 정확도를 높이기 위해 단일 세포의 특징을 사용하는 로그 규
제가 사용된다. 우리의 방법은 생물학적 패턴을 설명할 수 있으며, 또한 다른 방법들에 비교해 시뮬레이션
데이터셋과 실제 데이터 셋에서 좋은 결과를 보여준다.