서지주요정보
Incorporating domain knowledge into hierarchical topic models with dirichlet forest priors = 디리쉴릿 포레스트 사전 확률을 적용한 계층적 토픽 모델에의 도메인 지식 반영법 연구
서명 / 저자 Incorporating domain knowledge into hierarchical topic models with dirichlet forest priors = 디리쉴릿 포레스트 사전 확률을 적용한 계층적 토픽 모델에의 도메인 지식 반영법 연구 / Su Jin Shin.
저자명 Shin, Su Jin ; 신수진
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027487

소장위치/청구기호

학술문화관(문화관) 보존서고

MIE 15006

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In spite of the proliferation of the topic model, the structured organization of topics from the probabilistic models needs to be improved. The improvement can be achieved in two ways: the better structured presentation of topics and the incorporation of domain knowledge on the corpus. The structured presentation, i.e., the hierarchical topic model, helps in categorizing similar topics, and the incorporation of domain knowledge enables the concentrated sampling of predefined keywords in the mixture model training. This paper presents the first topic model of the hierarchical topic clustering as well as incorporates domain knowledge, which I named Guided Hierarchical Topic Model (GHTM). Specifically, I allocated the prior information from the knowledge to the Dirichlet tree distribution, which becomes the prior of the hierarchical topic model. From the prior adjustment, I obtained the topic tree guided by the domain knowledge. With the Reuters Corpus Volume and the 20 Newsgroups datasets, I compared the performance of the GHTM to that of the Hierarchical Topic Model (HTM) from the perspective of the hierarchical classification accuracy. I found that the micro/macro F-measures of the classification are improved with enhanced structured organization.

토픽 모델의 확산에도 불구하고, 여전히 토픽의 구조적 구성에 대한 필요성은 향상될 필요가 있다. 이러한 향상은 다음과 같은 방법을 통해 시도해 볼 수 있다. 첫째로, 토픽을 더 구조화된 조직으로 구성하는 것과 둘째로, 말뭉치에 대한 도메인 지식을 반영하는 것이다. 계층적 토픽 모델과 같은 토픽 체계를 보여주는 모델은 유사한 토픽을 분류하고 조직화한다. 이에 도메인 지식을 반영한 것은 혼합 모델의 훈련 시 기 정의된 키워드에 초점이 된 샘플링을 가능케 한다. 본 논문에서는 계층적 토픽 모델에 도메인 지식을 반영한 가이드된 계층적 토픽 모델을 제안한다. 구체적으로 언급하자면, 도메인 지식의 사전 정보를 디리쉴릿 트리 분포에 할당하고 이것을 계층적 토픽 모델의 사전 확률로 이용하였다. 이러한 사전 확률의 조정을 통해, 도메인 지식에 의해 가이드된 토픽 트리를 얻을 수 있었다. 구조적으로 조직된 유명한 데이터 셋인 Reuters Corpus Volume과 20 Newsgroups 라는 데이터셋을 가지고 가이드된 계층적 토픽 모델과 기존의 계층적 토픽 모델 간 계층적 분류 정확도를 비교하였다. 또한 분류의 마이크로/매크로 평균을 비교하여 가이드된 계층적 토픽 모델이 기존의 모델에 비해 더 향상된 구조적 토픽 조직을 제시해 주고 있음을 확인하였다.

서지기타정보

서지기타정보
청구기호 {MIE 15006
형태사항 iv, 38p : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신수진
지도교수의 영문표기 : Il Chul Moon
지도교수의 한글표기 : 문일철
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 산업및시스템공학과,
서지주기 References : p.
주제 Hierarchical topic model
Dirichlet Forest priors
Domain knowledge
계층적 토픽 모델
디리쉴릿 포레스트 사전 확률
도메인 지식
QR CODE qr code