서지주요정보
Distributed online learning for topic models = 토픽 모델의 분산 온라인 기계 학습 알고리즘
서명 / 저자 Distributed online learning for topic models = 토픽 모델의 분산 온라인 기계 학습 알고리즘 / Jin-Yeong Bak.
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025208

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 13015

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

A major obstacle in using a probabilistic topic model, such as Latent Dirichlet Allocation (LDA) or Hierarchical Dirichlet Processes (HDP) is the amount of time it takes for posterior inference, especially for Web data which are huge and continuously expanding. Recent developments in distributed inference algorithms and minibatch-based online learning algorithms have offered partial solutions for this problem. In this paper, I propose a distributed online learning algorithm for LDA and HDP for dealing with both aspects of this problem at once. I apply our learning algorithm to three datasets: a corpus of 973K Twitter conversations and 4.8M Wikipedia articles used for a quantitative evaluation of our algorithm, and a larger corpus of 5.1M Twitter conversations for a case study. I compare our algorithm with the distributed version of variational inference using MapReduce and online learning using stochastic variational inference. I show that our learning algorithm achieves the same model fit and topic quality as the other inference algorithms but within a much shorter learning time. I conduct a case study using our distributed online learning framework to visualize how the topic proportions change over time in a stream of Web documents. Through this case study, I discover interesting temporal dynamics of topics in Twitter conversations.

문서 내 토픽을 찾아내는 Latent Dirichlet Allocation (LDA)나 Hierarchical Dirichlet Processes (HDP)와 같은 토픽 모델의 사용에 있어 어려운 점은 웹 상의 블로그 글이나 뉴스 기사, 사용자 댓글과 같이 대용량의 문서들로부터 토픽을 추론하는 시간이 오래 걸린다는 것이다. 따라서 최근 이에 관하여 분산 추론, 온라인 추론 등 수많은 추론 기법들이 각각 소개되고 있다. 본 학위논문에서는 이러한 문제들을 한 번에 해결할 수 있는 분산 온라인 추론 기법을 제안한다. 제안하는 분산 온라인 추론 기법은 기존에 존재하는 추론 기법과 비교하여 비슷한 모델 적합도를 얻으면서 추론 시간을 크게 단축시킨다. 이를 웹 상의 실제 데이터인 97만개 가량의 Twitter 대화 자료, 480만개 가량의 Wikipedia 자료에 적용하여 기존의 분산 추론 기법과 온라인 추론 기법과 비교하였다. 이를 통해 분산 온라인 추론 기법은 같은 모델 적합도를 보여주면서 학습 시간에 있어 기존의 기법과 비교하여 빠른 성능 향상을 보여 주는 것을 확인하였다. 분산 온라인 추론 기법의 실제 사용에 있어 이를 이용하여 웹 문서들의 시간에 따른 토픽 변화를 그릴 수 있음을 2년 동안 510만개의 Twitter 대화에 적용하여 토픽의 시간에 따른 변화량을 확인 하였다.

서지기타정보

서지기타정보
청구기호 {MCS 13015
형태사항 vi, 46 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박진영
지도교수의 영문표기 : Hae-Yun Oh
지도교수의 한글표기 : 오혜연
Including Appendix : A, Updating hyperparameters method in DoLDA - B, List of top topic words in Twitter conversations using DoLDA - C, List of top words in Wikipedia using DoLDA
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 28-30
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서