Topic modeling is useful tools to analyze a huge size of text data. Some applications used topic modeling to understand relationship between text data and a time series social measurement, i.e. stock price index, approval rate, etc. However, previous works has regarded topic models as preprocessing models and proposed no joint probabilistic models with the social measurement. This paper suggests two novel probabilistic topic models: Associated Topic Models (ATM) and Indirect ATM. The proposed models automatically find topics, identified in the crawled corpus, associated with the social measurement. This process is ultimately discovering the relationship between text data topics and measurement trends. When we applied the proposed models to financial news articles (Bloomberg) and stock price index (DJIA), ATMs show a higher capability, such as R2, in explaining the relation between the two sources of data compared to the integration of separate models for the two sources, i.e. dynamic topic modeling with regression.
토픽 모델링은 대량의 텍스트 분석을 모델링 하는데 있어서 효율적인 도구이다. 몇몇의 과거의 연구들은 이러한 토픽 모델링 방법을 이용하여 특정 수치 지표인 시 계열 데이터와의 연관성을 분석하였지만, 토픽 모델링을 텍스트의 전처리 과정에서만 이용함으로써 몇몇 한계점을 드러내었다. 이러한 문제를 해결하기 위하여 본 논문에서는 특정 사회지표와 텍스트 데이터를 함께 확률 모델링을 한 사회 지표와 연관된 토픽 모델(ATMs)을 제시한다. 제시된 ATMs을 이용함으로써 텍스트 내부에 존재하는 사회 지표와 연관된 토픽을 추출하는 것뿐만이 아니라 토픽과 사회지표가 가진 비례 혹은 반비례 관계를 추출하고 그 영향력의 크기에 대한 정보도 얻을 수 있다. 모델의 평가와 응용을 위해서 경제 뉴스인 Bloomberg데이터와 주가 데이터인 DJIA를 적용한 결과, ATMs가 기존의 토픽모델링 방법보다 사회지표에 대한 높은 설명력을 가진 것을 확인하였다.