서지주요정보
Explainability aware clustering: a case study using COVID-19 analysis = 설명 가능한 클러스터링: 코로나-19 분석을 통한 사례 연구
서명 / 저자 Explainability aware clustering: a case study using COVID-19 analysis = 설명 가능한 클러스터링: 코로나-19 분석을 통한 사례 연구 / Hyunseung Hwang.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038096

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 21150

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As the size of the time-series data increases, explaining large number of analyses becomes a critical issue. Interpreting time-series data with statistical summaries does not reflect the overall direction or the relationships between different time stamps in the time-series data. Visualizing multiple time-series data simultaneously also makes going through all possible time-series is still overwhelming for analysts. Machine learning models are effective in condensing information and have recently become more explainable. We utilize model explainability techniques to explain data analyses at a high level. Our approach is different than the traditional machine learning process where instead of making predictions on test data, we go back to the training data to understand it better by condensing the information in an explainable model. We propose a hybrid method that combines machine learning explainability with conventional data mining techniques. One problem is that, clustering similar time-series trends does not consider the explainability of the machine learning model. We apply state-of-the-art multi-objective clustering techniques to identify cohesive and explainable clusters. We demonstrate that pareto-based clustering techniques generate the most diverse cluster sets. We analyze the decision trees to identify the demographics that corresponds to each cluster.

시계열 데이터가 커질수록 모든 시계열 데이터에 대한 분석을 진행하기 여려워진다. 통계적 유의성을 기반으로 시계열 데이터를 설명할 경우 시간에 따른 데이터의 추세나 데이터간의 연관성을 반영하지 않는다. 다수의 시계열 데이터를 동시에 시각화 할 경우 데이터 분석가에게 너무 많은 양의 정보를 제공하여 분석이 어려워진다. 기계학습 모델은 정보를 응축할 수 있으며 다양한 연구가 이루어지면서 설명가능한 모델들이 개발되었다. 이 연구에서는 설명가능한 기계학습 기법들을 적용하여 사람이 이해 가능한 설명을 생성한다. 이 기법은 실험 데이터에서 머신 러닝의 성능을 높이는 기존의 목표와 다르게 학습 데이터에서의 예측을 통해 데이터를 이해한다는 점에서 기존의 머신 러닝 학습 기법과 차이가 있다. 기존의 설명 가능한 머신 러닝 학습 기법과 데이터마이닝 기법을 융합하여 데이터를 설명한다. 시계열 데이터로만 클러스터링을 진행할 경우 설명 가능한 머신 러닝 모델의 성능을 고려하지 않는다. 널리 사용되고 있는 다중 목적 클러스터링을 이용하여 응집성이 높으면서 설명가능한 클러스터를 찾아냈다. 파레토 방식을 이용하여 클러스터링을 했을 때 가장 다양한 클러스터가 생성되었다. 결정 트리를 분석하여 각 클러스터가 어떤 인구통계적 특성을 가지는지 파악한다.

서지기타정보

서지기타정보
청구기호 {MEE 21150
형태사항 ii, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 황현승
지도교수의 영문표기 : Steven Euijong Whang
지도교수의 한글표기 : 황의종
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 27-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서