High-dimensional data have become common in a wide range of fields such as biology, medicine, and engineering. Often, the primary goal in the analysis of such data is to cluster the observations into homogeneous groups. When clustering high-dimensional data, it is also important to identify variables that discriminate the clusters. In this dissertation, we propose new methods that simultaneously perform clustering and variable selection. In the first chapter of this dissertation, we formulate the clustering problem using a finite mixture model with a symmetric Dirichlet weights prior, while also placing a prior on the number of components. We handle the variable selection problem by introducing a latent binary vector, which represents the inclusion/exclusion of variables. In the second chapter of the dissertation, we propose mixture of finite maximum margin mixtures model, which combines a mixture of finite mixtures, and a maximum margin classifier. Furthermore, using the proposed method, we simultaneously select useful variables by introducing a latent binary vector that represents discriminating or non-discriminating variables. Finally, in the third chapter, we propose K-concrete autoencoder which clusters data by a joint DNN and K-means clustering framework and selects important features by adding a concrete layer after the input layer. We demonstrate the advantage of our methods using many datasets occurring in the actual industrial fields.
고차원 데이터는 생물학, 의학 및 공학과 같은 광범위한 분야에서 발생되어 활용되어 왔다. 본 학위논문은 고차원 데이터의 군집화와 군집에 관여하는 주요 변수를 동시적으로 식별하는 모델들을 제안하고 살펴본다. 본 논문의 첫번째 장에서는 대칭 디리클레 사전 분포가 주어진 유한 혼합 모델을 사용하여 군집화 문제를 모델링하는 동시에 군집에 개수에 포아송 사전분포를 부여하여 자동적으로 군집의 개수가 추론되도록 한다. 또한, 변수의 포함/제외를 나타내는 잠재 이진 변수를 도입하여 군집에 관여하는 변수와 그렇지 않은 변수를 구분한다. 논문의 두번째 장에서는, 유한 혼합 모델과 최대 마진 분류기를 결합한 유한 마진 혼합 모델을 제안하여 복잡한 형태의 데이터에 대해서 높은 정확도의 군집이 가능하도록 한다. 또한 잠재 이진 변수를 도입하여 군집에 관여하는 변수와 그렇지 않은 변수를 구분하도록 한다. 마지막으로 세번째 장에서는 심층신경망과 K-평균 군집 모델을 결합하여 심층 학습에서의 군집화가 가능하도록 하고 입력 레이어 뒤에 콘크리트 레이어를 추가하여 중요한 변수들이 카테고리컬 분포로 샘플링 될 수 있도록 한다. 우리는 실제 산업에서 생성된 데이터들을 사용하여 제안한 방법들의 활용 가능성을 보여준다.