In spite of the proliferation of the topic model, the structured organization of topics from the probabilistic models needs to be improved. The improvement can be achieved in two ways: the better structured presentation of topics and the incorporation of domain knowledge on the corpus. The structured presentation, i.e., the hierarchical topic model, helps in categorizing similar topics, and the incorporation of domain knowledge enables the concentrated sampling of predefined keywords in the mixture model training. This paper presents the first topic model of the hierarchical topic clustering as well as incorporates domain knowledge, which I named Guided Hierarchical Topic Model (GHTM). Specifically, I allocated the prior information from the knowledge to the Dirichlet tree distribution, which becomes the prior of the hierarchical topic model. From the prior adjustment, I obtained the topic tree guided by the domain knowledge. With the Reuters Corpus Volume and the 20 Newsgroups datasets, I compared the performance of the GHTM to that of the Hierarchical Topic Model (HTM) from the perspective of the hierarchical classification accuracy. I found that the micro/macro F-measures of the classification are improved with enhanced structured organization.
토픽 모델의 확산에도 불구하고, 여전히 토픽의 구조적 구성에 대한 필요성은 향상될 필요가 있다. 이러한 향상은 다음과 같은 방법을 통해 시도해 볼 수 있다. 첫째로, 토픽을 더 구조화된 조직으로 구성하는 것과 둘째로, 말뭉치에 대한 도메인 지식을 반영하는 것이다. 계층적 토픽 모델과 같은 토픽 체계를 보여주는 모델은 유사한 토픽을 분류하고 조직화한다. 이에 도메인 지식을 반영한 것은 혼합 모델의 훈련 시 기 정의된 키워드에 초점이 된 샘플링을 가능케 한다. 본 논문에서는 계층적 토픽 모델에 도메인 지식을 반영한 가이드된 계층적 토픽 모델을 제안한다. 구체적으로 언급하자면, 도메인 지식의 사전 정보를 디리쉴릿 트리 분포에 할당하고 이것을 계층적 토픽 모델의 사전 확률로 이용하였다. 이러한 사전 확률의 조정을 통해, 도메인 지식에 의해 가이드된 토픽 트리를 얻을 수 있었다. 구조적으로 조직된 유명한 데이터 셋인 Reuters Corpus Volume과 20 Newsgroups 라는 데이터셋을 가지고 가이드된 계층적 토픽 모델과 기존의 계층적 토픽 모델 간 계층적 분류 정확도를 비교하였다. 또한 분류의 마이크로/매크로 평균을 비교하여 가이드된 계층적 토픽 모델이 기존의 모델에 비해 더 향상된 구조적 토픽 조직을 제시해 주고 있음을 확인하였다.