서지주요정보
Sparse clustering of mixed data with likelihood based feature ranking = 우도 기반 변수 정렬을 통한 혼합형 데이터의 희소 군집화
서명 / 저자 Sparse clustering of mixed data with likelihood based feature ranking = 우도 기반 변수 정렬을 통한 혼합형 데이터의 희소 군집화 / Changwon Yoon.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041237

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MIE 23018

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Mixed data refer to tabular data which include both numerical and categorical features and they have become prevalent in various fields such as finance and medical studies. In our study, we propose a simple yet powerful sparse clustering technique for mixed data. Our approach combines model-based Gaussian-multinomial mixture model with partitioning method, leveraging the advantages of both. Also, we utilize the difference in log-likelihoods between cluster assignment and non-assignment of each feature to induce sparsity and feature selection tailored to the practitioner's needs. The proposed method performs under with high-dimensional settings where the number of features exceeds the number of observations, due to its straightforward structure and capacity to induce sparsity. Furthermore, our model can select different features for each cluster and offers feature importance rankings which greatly enhances interpretability of the clustering result compared to other sparse clustering techniques for mixed data. We demonstrate our method's performance using synthetic and real data and observe that it has competitive performance compared to some state-of-the-art mixed data clustering methods.

최근 금융, 의학 등과 같은 분야에서 수치형 변수와 범주형 변수를 모두 가지고 있는 혼합형 데이터가 많이 이용되고 있다. 이에, 본 연구에서는 혼합형 데이터에 대한 간단하면서도 강력한 희소 군집화 기법을 제시하고자 한다. 제안된 방법은 모형기반 군집방법인 가우시안-다항 혼합모형과 분할기법을 결합하여 두 접근 방법의 장점을 모두 가지고 있으며, 각 변수별 군집화 전과 후의 로그-우도의 차이를 기반으로 이용자가 원하는 수준의 변수 선택이 가능하다. 간단한 구조와 변수 선택 기법으로 인해 본 방법은 변수의 수가 관측치의 수보다 많은 고차원 데이터에 대해서도 잘 작동하는 것을 확인하였다. 더욱이, 본 방법은 각 군집별로 다른 변수를 선택할 수 있으며 변수간의 중요도 순위를 확인할 수 있는데, 이는 기존의 혼합형 데이터에 대한 희소 군집화 방법들에 비해 해석력이 크게 향상된 것이다. 마지막으로, 시뮬레이션과 실제 데이터를 통해 다른 최신 군집화 방법들에 비해 본 방법이 좋은 성능을 보임을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MIE 23018
형태사항 iii, 20 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤창원
지도교수의 영문표기 : Jeongyoun Ahn
지도교수의 한글표기 : 안정연
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 19-20
주제 Mixed data
Clustering
Log-likelihood
Feature Ranking
Feature Selection
혼합형 데이터
군집화
로그-우도
변수 정렬
변수 선택
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서