서지주요정보
Nonparametric topic models with multi-labeled dataset = 다중 레이블 데이터셋을 위한 비모수적 토픽모델
서명 / 저자 Nonparametric topic models with multi-labeled dataset = 다중 레이블 데이터셋을 위한 비모수적 토픽모델 / Dongwoo Kim.
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8028051

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 15003

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Probabilistic topic models provide a framework for analyzing large volumes of unlabeled documents by automatically identifying the latent semantic structure, called topics, of the corpus. Topic models have been successfully applied to text modeling, cognitive science, computational biology, and many other areas. The introduction of Bayesian nonparametric methods is an important direction of the probabilistic topic models. With Bayesian nonparametrics, topic models can avoid the complex model selection problem by automatically inferring an appropriate number of topics for a corpus. Bayesian nonparametric methods have been widely applied to various machine learning problems such as regression and clustering. Despite its popularity, the nonparametric method is not widely applied to topic modeling, because the model construction is complex and posterior inference is intractable for many interesting models. This thesis provides three novel constructions of nonparametric topic models and their tractable posterior inference algorithms for modeling the underlying relationship between the latent topics and side information of documents such as authors, categories, and timestamps. First, I propose the distance dependent Chinese restaurant franchise (ddCRF) to model the emergence and disappearance of topics over time. The ddCRF relaxes the exchangeability assumption which ignores the ordering or distances of documents and introduces the new assumption that the topics of the later documents are influenced by the topics of the earlier documents. With the experiments with academic corpora, the ddCRF correctly captures the emergence and disappearance of academic topics. Second, I propose the Dirichlet process with mixed random measure (DPMRM) to model the topics correlated to discrete side information. The DPMRM takes the discrete side information (labels) of documents such as categories and tags and allocates an unbounded number of topics per label. Through the posterior inference, the model automatically captures an appropriate number of topics per label. The model is further enhanced the model by incorporating ddCRF and modeling multi-labeled images for image segmentation and object labeling. Finally, I propose the hierarchical Dirichlet scaling process (HDSP) as a general framework to model the correlation between topics and arbitrary types of side information. Unlike the continuous spatial and temporal information, there is no metric to measure the similarity among discrete information such as categories and tags. HDSP explicitly models the correlation between topics and discrete side information as well as continous side information through the combination of 1) a novel construction method of normalized gamma process, and 2) scaling functions which model the correlation between topics and side information. The model shows improved performance on predicting which topics would be used in the document given various types of side information.

확률론적 주제 모형은 대규모 데이터 내에 잠재되어 있는 다양한 주제들을 자동으로 찾아내기 위해 고안된 모형으로, 문서 데이터 뿐만 아니라 이미지, 인지과학, 계산 생물학 등 다양한 분야에 적용되어 널리 사용되고 있다. 비모수적 베이지안 방법론은 통계 모형의 한 연구분야로써 주제 모형에의 적용을 통해 기존방법으로 풀지 못한 여러가지 문제들을 (총 주제 수의 선택, 계층적 주제의 추론) 풀수있는 방법을 제안하고 있다. 이러한 비모수적 베이지안 방법론은 기계학습의 다양한 분야에서 널리 사용되어 왔으나, 상대적으로 주제 모형에는 복잡한 모형 구성과 사후 확률 추론의 불가성 때문에 적극적으로 적용되어 사용되지 못하였다. 본 학위논문에서는 이러한 단점을 보완하고자 세가지 비모수적 주제 모형을 제안한다. 본 모형들은 문서가 가지고 있는 여러가지 부가 정보인 저자, 문서 작성일자, 카테고리 정보등을 사용하여 주제를 찾아낸다. 첫째, 본 연구는 거리 의존 관계를 이용한 비모수적 주제 모형을 제안한다. 문서들 사이에는 다양한 형태의 의존관계가 존재한다. 예를들어 시간대별로 작성된 연구논문들의 경우 시간이 지날 수록 새로운 연구주제들이 생겨나는 특성을 보여준다. 새롭게 제안된 모형은 이러한 문서들의 시간 관계를 이용하여 시간의 흐름에 따른 주제의 발생과 소멸을 추론할 수 있게 고안되었다. 다양한 학술 논문 데이터를 사용한 실험을 통해 실제로 어떤 주제들이 시간에 따라 생성/소멸 하는지를 보여준다. 둘째, 본 연구는 다중 범주 정보를 이용한 비모수적 주제 모형을 제안한다. 문서의 다중 범주 정보에는 계층적 분류, 다중 저자 정보등이 포함된다. 새롭게 제안된 모형은 각각의 범주마다 가장 적절한 수의 주제를 찾아 낼 수 있게 디리클레 혼합 모형을 사용하여 문서들의 주제를 추론할 수 있도록 고안되었다. 학술 논문 데이터뿐만 아니라 이미지 데이터를 사용한 실험을 통해 본 모형이 어떻게 다중 범주 정보와 연관된 주제들을 자동으로 찾아내는지를 보여준다. 셋째, 본 연구는 다중 범주 정보 및 수치 정보를 비례 계층적 비모수적 주제 모형을 제안한다. 새롭게 제안된 모형은 다중 범주 정보뿐만 아니라 수치형식으로 나타나는 문서의 정보들을 사용하여 주제를 추론한다. 본 모형은 주제들과 부가 정보들의 상관 관계를 명확하게 정의하여 이를 통해 문서의 부가 정보가 주어졌을때 부가 정보와 가장 유사성이 높은 주제들이 사용 될 수 있도록 모형을 지도한다. 상품의 항목 범주와 수치적 평가에 대한 정보를 가지고 있는 상품 평가 문서들을 사용한 실험을 통해 본 모형의 향상된 수치 평가 분류 성능을 보여준다.

서지기타정보

서지기타정보
청구기호 {DCS 15003
형태사항 viii, 88 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김동우
지도교수의 영문표기 : Hae Yun Oh
지도교수의 한글표기 : 오혜연
Including Appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p.
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서