서지주요정보
Simultaneous clustering and feature selection for high-dimensional data = 고차원 데이터 분석을 위한 동시적 군집화 및 변수 선택
서명 / 저자 Simultaneous clustering and feature selection for high-dimensional data = 고차원 데이터 분석을 위한 동시적 군집화 및 변수 선택 / Woojin Doo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038710

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DIE 22009

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

High-dimensional data have become common in a wide range of fields such as biology, medicine, and engineering. Often, the primary goal in the analysis of such data is to cluster the observations into homogeneous groups. When clustering high-dimensional data, it is also important to identify variables that discriminate the clusters. In this dissertation, we propose new methods that simultaneously perform clustering and variable selection. In the first chapter of this dissertation, we formulate the clustering problem using a finite mixture model with a symmetric Dirichlet weights prior, while also placing a prior on the number of components. We handle the variable selection problem by introducing a latent binary vector, which represents the inclusion/exclusion of variables. In the second chapter of the dissertation, we propose mixture of finite maximum margin mixtures model, which combines a mixture of finite mixtures, and a maximum margin classifier. Furthermore, using the proposed method, we simultaneously select useful variables by introducing a latent binary vector that represents discriminating or non-discriminating variables. Finally, in the third chapter, we propose K-concrete autoencoder which clusters data by a joint DNN and K-means clustering framework and selects important features by adding a concrete layer after the input layer. We demonstrate the advantage of our methods using many datasets occurring in the actual industrial fields.

고차원 데이터는 생물학, 의학 및 공학과 같은 광범위한 분야에서 발생되어 활용되어 왔다. 본 학위논문은 고차원 데이터의 군집화와 군집에 관여하는 주요 변수를 동시적으로 식별하는 모델들을 제안하고 살펴본다. 본 논문의 첫번째 장에서는 대칭 디리클레 사전 분포가 주어진 유한 혼합 모델을 사용하여 군집화 문제를 모델링하는 동시에 군집에 개수에 포아송 사전분포를 부여하여 자동적으로 군집의 개수가 추론되도록 한다. 또한, 변수의 포함/제외를 나타내는 잠재 이진 변수를 도입하여 군집에 관여하는 변수와 그렇지 않은 변수를 구분한다. 논문의 두번째 장에서는, 유한 혼합 모델과 최대 마진 분류기를 결합한 유한 마진 혼합 모델을 제안하여 복잡한 형태의 데이터에 대해서 높은 정확도의 군집이 가능하도록 한다. 또한 잠재 이진 변수를 도입하여 군집에 관여하는 변수와 그렇지 않은 변수를 구분하도록 한다. 마지막으로 세번째 장에서는 심층신경망과 K-평균 군집 모델을 결합하여 심층 학습에서의 군집화가 가능하도록 하고 입력 레이어 뒤에 콘크리트 레이어를 추가하여 중요한 변수들이 카테고리컬 분포로 샘플링 될 수 있도록 한다. 우리는 실제 산업에서 생성된 데이터들을 사용하여 제안한 방법들의 활용 가능성을 보여준다.

서지기타정보

서지기타정보
청구기호 {DIE 22009
형태사항 iv, 81 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 두우진
지도교수의 영문표기 : Heeyoung Kim
지도교수의 한글표기 : 김희영
수록잡지명 : "Bayesian variable selection in clustering high-dimensional data via a mixture of finite mixtures". Journal of Statistical Computation and Simulation, Volume 91, 2021 - Issue 12, 2551-2568(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 72-79
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서