서지주요정보
Hierarchical mixture modelings for different types of data : (a) nonparametric bayesian approach = 다양한 타입의 데이터를 위한 계층적 혼합 모델링 : 비모수적 베이지안 접근법
서명 / 저자 Hierarchical mixture modelings for different types of data : (a) nonparametric bayesian approach = 다양한 타입의 데이터를 위한 계층적 혼합 모델링 : 비모수적 베이지안 접근법 / Su-Jin Shin.
저자명 Shin, Su-Jin ; 신수진
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033145

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DIE 19007

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

As access to data becomes more comfortable, many tasks have been done to extract patterns from a large amount of collected data. After clustering as a representative process for such analysis, there is a method to analyze each mixture component. Here, the mixture component is an individual distribution that constitutes a mixture distribution and represents data locally. Therefore, the mixture component analysis is a summary of typical patterns of data by interpreting the individual components identified from the model. Since analyzing the data individually requires extensive time and labor, this clustering task is essential in many real-world applications. Beyond merely learning the mixture components at the flat level, many studies have been investigated recently to study the mixture components having hierarchical relationships. Hierarchical mixture components are hierarchically organized between components. From an analyst’s perspective, components can be identified by their abstraction levels from the most general components to the most specific components. Depending on the purpose of the analysis, the levels of elaboration of data summaries required by contexts can be quite different. In this case, hierarchical mixture component analysis is appropriate. Besides, since the components are organized hierarchically, the amount of information that can be acquired is abundant, and more improved interpretability is possible. In this dissertation, I present several hierarchical mixture modelings based on the nonparametric Bayesian approach. As various types of data exist, I suggest various application models which improve or extend the existing hierarchical mixture models, considering the characteristics of each type. The ultimate goal is not only to improve performance but to extend the functionality of the existing hierarchical mixture modeling and to improve utilities. The first study involved the hierarchical mixture modeling for discrete data without label information, and it proposes an application model that reflects user domain knowledge in order to improve the existing models. The second study involved the hierarchical mixture modeling for discrete data with label information. A supervised extension of hierarchical mixture modeling is possible. The third study involved the hierarchical mixture modeling for high dimensional continuous data. It aims to optimize the divisive hierarchical clustering tasks with low dimensional embedding learning simultaneously. The first study is the hierarchical mixture modeling based on user domain knowledge by applying the Dirichlet forest prior. It is a model that can be applied to data such as discrete data without the label (supervision) information, which are documents with plain text content. The existing model may not be intuitive for users to interpret because many mixture components with mixed contents are generated. However, if a minimum level of the detailed area that the user want to see has been set up, it purposes to infer the user interpretable hierarchical mixture components by reflecting user domain knowledge in seed word set form. The second study is the hierarchical mixture modeling for discrete data with the label information. Unlike the unsupervised learning in the first study, this study is an example of the supervised learning. The prescription can be an example of this kind of data. It attempted to analyze it by treating prescription medicines as document word and symptoms as document label. It studied the extended concept of hierarchical mixture component that includes information about not only medicines but also symptoms. Based on the information that can be deduced from the model, the study was conducted to detect the anomalies using the various meta information of prescription. The third study is a study of the representation learning and the hierarchical mixture modeling simultaneously under the framework of autoencoder, which is a representative model of unsupervised learning based on deep learning. It applies to continuous real number high dimensional data, such as word embedding or images. This study is the first to suggest the hierarchical mixture density estimation in neural network embedding space in this academic circle. The hierarchical clustering in low dimension has higher hierarchical clustering accuracy than performing the hierarchical clustering directly in high dimension, or dimensionally reducing to low dimension and then performing the hierarchical clustering. Moreover, the study demonstrates empirically that this hierarchical latent structure extraction has representation power over the conventional autoencoder based models. The studies carried out in this dissertation suggest an improved or extended hierarchical mixed modeling for adaptation to various types of data, with a common denominator of the hierarchical mixture modeling based on the nonparametric Bayesian approach. As acquiring a large amount of data became easier, how to summarize the prominent characteristics of the data eventually emerged as an important analytical issue. Since the level of abstraction particularly required to summarize the data depends on the situation, and the intuitive and structured information extraction is very useful for analysts, in this respect, the hierarchical mixture modeling is an important task that needs continuous research in the future.

데이터의 접근성이 용이해지면서, 대량의 수집된 데이터에 대해 패턴 (patterns)을 추출해내는 과업이 많이 행해지게 되었다. 이러한 분석을 위한 대표적인 프로세스로 군집화 (clustering)를 수행한 후 각 군집의 혼합 컴포넌트 (mixture component)를 분석하는 방법이 존재한다. 여기서 컴포넌트란 혼합 분포를 구성하는 개별 분포로, 데이터를 지역적으로 표현한다. 따라서 혼합 컴포넌트 분석이라 함은 모델로부터 파악된 개별 컴포넌트들을 해석하여 데이터의 대표 패턴들을 요약하는 것이라 할 수 있다. 개별적으로 데이터를 일일이 분석을 하는 것은 매우 많은 시간과 노동을 요구하기 때문에, 이러한 군집화 과업은 실제 산업계에서 필수적으로 요구되는 과업이라 할 수 있다. 단순히 동등한 (flat) 레벨에서의 혼합 컴포넌트들을 학습하는 것을 넘어서, 최근 계층적인 관계의 혼합 컴포넌트들을 학습할 수 있는 연구가 다수 제시되었다. 계층적 혼합 컴포넌트들은 컴포넌트들 간 계층적으로 조직화된 관계가 형성되어 있으며, 분석가의 입장에서는 가장 일반적인 컴포넌트부터 가장 세부적인 컴포넌트까지 그 추상도 (abstraction level)에 따라 컴포넌트를 파악할 수 있다. 어떠한 것을 목적으로 하는 분석이냐에 따라, 상황 별로 요구되는 데이터 요약의 세밀한 정도는 충분히 다를 수 있는데 이러한 경우 계층적인 혼합 컴포넌트 분석이 적절하며, 또한 컴포넌트 간 계층적으로 조직화되어 있기 때문에 획득 가능한 정보량이 풍부하고 보다 직관적인 해석 (improved interpretability)이 가능하다고 할 수 있다. 본 논문은 비모수적 베이지안 접근법에 근거한 계층적 혼합 컴포넌트 모델링을 하되, 여러 타입의 데이터가 존재하는 만큼 각 타입의 특성을 고려하여 기존의 계층적 혼합 컴포넌트 학습을 개선하거나 확장한 다양한 응용 모델들을 제안하고자 한다. 다분히 성능 향상 만을 위한 것이 아니라, 기존의 계층적 혼합 모델링의 기능을 확장하고 유틸리티를 개선시키는 것을 궁극적 목표로 한다. 첫 번째 연구는 라벨 정보가 없는 이산형 데이터에 대해 계층적 혼합 컴포넌트 학습을 수행한 것으로, 기존의 모델을 개선하고자 사용자의 도메인 지식을 반영한 응용 모델을 제안한다. 두 번째 연구는 라벨 정보가 있는 이산형 데이터에 대한 계층적 혼합 컴포넌트 학습을 수행한 것으로, 확장된 형태의 계층적 혼합 컴포넌트 학습이 가능하다. 세 번째 연구는 고차원의 연속형 데이터를 위한 계층적 혼합 컴포넌트 학습을 수행한 것으로, 저차원 임베딩 학습과 동시에 계층적 클러스터링 과업을 동시에 최적화하는 것을 목적으로 한다. 첫 번째 연구는 디리쉴릿 포레스트 사전 확률 (Dirichlet forest prior)을 적용하여 사용자의 도메인 지식이 반영된 계층적 혼합 컴포넌트 학습을 수행한 것이다. 라벨 (supervision) 정보가 없는 이산형 데이터, 예컨대 일반 텍스트를 내용으로 하는 문서와 같은 데이터에 대해 적용할 수 있는 모델이다. 기존의 모델은 여러 내용이 뒤섞인 혼합 컴포넌트가 많이 생성되어 사용자가 해석하기에 직관적이지 않을 수 있었다. 하지만 사용자가 보고자하는 최소한의 세부 분야가 기정되어 있을 경우, 단어 셋 형태로 사용자 도메인 지식을 반영하여 사용자에게 해석가능한 (interpretable) 계층적 혼합 컴포넌트를 추론하는 것을 목적으로 한다. 두 번째 연구는 라벨 정보가 있는 이산형 데이터에 대한 계층적 혼합 컴포넌트 학습을 수행한 것으로, 첫 번째 연구의 비 감독 (unsupervised) 학습과 달리 본 연구는 감독 (supervised) 학습을 수행한 사례이다. 이러한 종류의 데이터는 예컨대 처방전을 들 수 있으며 처방전의 약들을 문서의 단어로, 주상병을 문서의 라벨로 취급하여 분석을 시도하였다. 약 뿐만 아니라 주상병에 대한 정보를 아우르는 확장된 개념의 계층적 혼합 컴포넌트를 학습하였고, 모델로부터 추론 가능한 정보들에 근거해 처방전의 다양한 메타 정보를 이용하여 이상치 검출 과업도 수행하였다. 세 번째 연구는 딥 러닝 기반 비 감독 학습의 대표적인 모델인 오토 인코더(autoencoder) 프레임워크 하에 임베딩 학습 및 계층적 혼합 컴포넌트 학습을 동시에 수행한 연구이다. 연속형의 실수 고차원 데이터, 예컨대 단어 임베딩(word embedding)이나 이미지와 같은 데이터에 적용 가능하다. 신경망 임베딩 공간에서 계층적 혼합 밀도 추정 (hierarchical mixture density estimation)을 수행하는 것은 본 연구가 학계에서 처음으로 제안되는 연구이다. 저차원의 계층적 클러스터링은 고차원에서 바로 계층적 클러스터링을 수행하거나, 저차원으로 차원을 축소시킨 후 계층적 클러스터링을 한 것에 비해 계층적 클러스터링 정확도가 더 높게 측정되었다. 또한, 이러한 계층적인 잠재 구조 (latent structure) 추출은 기존의 타 오토 인코더 기반 모델에 비해 향상된 표현력 (representation power) 을 갖고 있음을 실증적으로 증명하였다. 본 논문에서 수행된 연구들은 비모수적 베이지안 접근법 기반의 계층적 혼합 컴포넌트 학습을 공통 분모로 하여, 다양한 타입의 데이터에 대해 적응하기 위해 개선된 혹은 확장된 계층적 혼합 모델링을 제안한다. 대량의 데이터를 획득하는 것이 용이해지면서 결국 얼마나 데이터의 두드러진 특성들을 잘 요약해내느냐가 중요한 분석 이슈로 대두되었다. 특히 데이터를 요약하는 데 있어 요구되는 요약의 세밀함의 정도는 상황에 따라 다르며, 직관적이고 체계적인 구조의 정보 추출은 분석가에게 매우 유용하기 때문에 이러한 측면에 있어서 계층적 혼합 컴포넌트 학습은 향후에도 지속적인 연구가 필요한 중요한 과업이다.

서지기타정보

서지기타정보
청구기호 {DIE 19007
형태사항 vii, 97 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신수진
지도교수의 영문표기 : Il-Chul Moon
지도교수의 한글표기 : 문일철
수록잡지명 : "Guided HTM: Hierarchical Topic Model with Dirichlet Forest Priors". IEEE Transactions on Knowledge and Data Engineering, v.29.no.2, pp.330-343(2016)
수록잡지명 : "Hierarchical prescription pattern analysis with symptom labels". Pattern Recognition Letters, v.111, pp.94-100(2018)
학위논문 학위논문(박사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p. 87-94
주제 Different types of data
hierarchical mixture modeling
nonparametric bayesian approach
latent variable models
divisive hierarchical clustering
다양한 타입의 데이터
계층적 혼합 모델링
비모수적 베이지안 접근
잠재 변수 모형
분리형 계층적 군집화
QR CODE qr code