Deep generative models naturally become nonlinear dimension reduction tools to visualize large-scale datasets for revealing latent grouping patterns or identifying outliers. Variational autoencoder (VAE) is a deep generative method equipped with encoder/decoder structures. However, the VAE tends not to show the grouping pattern clearly without additional annotation information. On the other hand, similarity-based dimension reduction methods such as t-SNE or UMAP present a clear grouping pattern even though these methods do not have encoder/decoder structures. To bridge this gap, we propose a new approach that adopts similarity information in the VAE framework. Our proposed method finds lower dimensional representations with clear grouping structures while keeping the encoder/decoder structures in the model. For biological applications, it is crucial to adjust for covariate information such as batch or doner information to find biologically meaningful groups. We then extend our approach to a conditional VAE (CVAE) to incorporate the covariate information in the dimension reduction step. Our method shows great performance on both synthetic and real-world datasets.
심층 생성 모델은 자연스럽게 잠재된 그룹 패턴을 드러내거나 특이치를 식별하기 위한 대규모 데이터 세트를 시각화하는 비선형 차원 감소 도구가 된다. 변분 자동 인코더는 인코더/디코더 구조를 갖춘 심층 생성 방법 이다. 그러나 이는 추가 정보 없이 그룹의 패턴을 명확하게 보여주지 않는 경향이 있다. 반면, 유사성 기반 차원 감소 방법은 인코더/디코더 구조를 가지고 있지 않음에도 불구하고 명확한 그룹의 패턴을 보여준다. 이러한 격차를 해소하기 위해 변분 오토 인코더 구조에서 유사성 정보를 융합하는 새로운 접근 방식을 제안 한다. 우리가 제안한 방법은 인코더/디코더 구조를 모델에 유지하면서 명확한 그룹화 구조로 저차원 표현을 찾는다. 생물학적 응용의 경우, 공변량 정보를 조정하여 생물학적으로 의미 있는 그룹을 찾는 것이 중요하다. 우리는 조건부 변분 오토 인코더로 접근 방식을 확장하여 차원 축소 단계에 공변량 정보를 통합한다. 우리의 방법은 합성 데이터 세트와 실제 데이터 세트 모두에서 우수한 성능을 보여준다.