서지주요정보
Distance dependent chinese restaurant franchise = 거리 의존관계를 이용한 비모수적 베이지안 확률 모형
서명 / 저자 Distance dependent chinese restaurant franchise = 거리 의존관계를 이용한 비모수적 베이지안 확률 모형 / Dong-Woo Kim.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8022743

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 11004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Topic models provide a simple way to analyze large volumes of unlabeled documents by automatically identifying the latent semantics of the corpus. Such models have been widely applied to text modeling, cognitive science, computational biology, and many others where there are meaningful patterns hidden in the data. Driven by an ever increasing amount of information available and also by efforts of researchers who have built many tools for topic modeling, there is a wide and fast spread of variants and applications of topic models. This thesis proposes a new model, the distance dependent Chinese restaurant franchise (ddCRF), in which the model considers the distance between the latent variables. This thesis starts with the Chinese restaurant process (CRP), which is a non-parametric prior for Bayesian models, extends it to the Chinese restaurant franchise (CRF), which is a hierarchical non-parametric prior for Bayesian topic models, and finally incorporates the distance dependent Chinese restaurant process (ddCRP) into the CRF to build the ddCRF. For posterior inference in ddCRF, which is an important computational issue in probabilistic generative topic models, this thesis proposes Markov chain Monte Carlo (MCMC) algorithms. The resulting model reflects the intuition that topics in nearby documents are more likely to be similar, and when it is applied to a corpus collected over several years in which the documents exhibit the phenomena of emergence and disappearance of topics through time, the ddCRF produces much clearer patterns than previously proposed models for capturing such temporal patterns. The improved performance of the ddCRF in modeling such corpora is shown with four different corpora of conference proceedings, SIGIR, SIGMOD, SIGGRAPH and NIPS. The ddCRF performs better than the CRF and the most widely used topic model, latent Dirichlet allocation (LDA), in terms of held-out likelihoood and complexity. Another advantage of the ddCRF over LDA, dynamic topic model, and other parametric models, is that the number of topics, which is an important parameter in LDA, need not be fixed a priori in the ddCRF because it is a non-parametric model that infers the appropriate number of topics for a corpus.

확률론적 주제 모델은 분류되지 않은 대규모의 문서집합에 내재하는 여러 주제들을 자동으로 분석할 수 있게 해주는 방법을 제공한다. 이와 같은 모델들은 텍스트 분석, 인지과학, 계산 생물학 등의 여러 분야에서 데이터 내에 잠재된 의미있는 패턴들을 찾아내는데 적용되어 왔다. 대규모 데이터의 분석에 대한 요구와 여러 연구자들의 노력으로 인해 주제 모델의 응용과 이종 모델들의 개발은 주제 모델이 더욱 많은 분야에 적용되는데 기여를 하고 있다. 본 연구는 거리 의존관계를 이용한 변종 비모수적 베이지안 확률 모델을 제안한다. 우리는 이 모델의 개발을 위해 우선 중국인 식당 프로세스(CRP)라고 불리는 비모수적 베이지안 모델의 사전 확률 분포에 대하여 알아 본 후, 이를 계층적 구조로 확장시킨 중국인 식당 프렌차이즈(CRF)라고 불리는 비모수적 베이지안 주제 모델에 대해 알아 본다. 최종적으로 중국인 식당 프렌차이즈 모델에 거리 의존관계를 포함시킨 모델(ddCRF)을 제안한다. 사후 확률의 추론을 위해서는 통계 추론을 위해 널리 사용되고 있는 마르코프 체인 몬테 카를로 방식을 제안한다. 본 연구는 총 4가지 학회들의 논문 발행물들을 사용하여 모델의 성능 평가를 진행한다. 성능 평가 결과 본 모델은 기존에 널리 사용된 모델인 잠재 디리클레 할당모형(LDA)와 중국인 식당 프렌차이즈(HDP)보다 가능성(Held-out Likelihood)와 복잡도(Complexity) 측면에서 뛰어난 결과를 보여준다. 또한 제안된 모델을 사용한 결과는 시간대 별로 구성된 문서집합에서 주제들을 분석 할 때 가까운 시간대에 작성된 문서들이 서로 비슷한 주제들을 가진다는 직관을 반영한다, 또한 시간대에 따른 주제의 발생과 소멸에 대해서도 기존의 모델들에 비해 향상된 결과를 보여준다. 본 모델의 또다른 장점은 기존에 사용되어 왔던 모수적 주제 모델들에 비해서 주제의 숫자를 선행적으로 결정해 주어야 할 필요가 없다는 점이다.

서지기타정보

서지기타정보
청구기호 {MCS 11004
형태사항 v, 32 p. : 삽화 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 김동우
지도교수의 영문표기 : Alice Oh
지도교수의 한글표기 : 오혜연
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 24-25
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서