News articles present a series of events which influence on our communities with great or small impacts. Each article involves representative key words which may provide an information of the corresponding phenomena. Therefore, analyzing the sequencial frequencies of the keywords in the articles will provide an insight to understand historical social events and to predict upcoming events. Additionally, a set of keywords has complex relations which give view points of causality of events. This paper used Kalman flter model, which is one of the state-of-the-art models to release sensitivity of the features white noises, to predict the word-level frequencies and catch the causal relationships between them. Specially, we applied social influence theorm to model relation between keywords. When we applied the proposed approach, our approach get improvements at prediction performance for highly related keywords with others.
뉴스 기사는 우리 사회의 크고 작은 사회 이벤트를 존재하고 있다. 예를 들어, '유가 상승'이라는 이벤트는 '경기', '침체'라는 키워드와 관련 되어있다. '경기 침체'라는 이벤트는 '취업', '물가'등과 같은 키워드에 관련되어 있다. 이와 같이 사회에서 발생하는 다양한 이벤트는 특정한 키워드들과 관계를 맺고 있고, 그 연결관계는 여러 키워드들이 맞물려 복잡한 구조를 가지고 있다. 그러므로, 기사 속 키워드 발생빈도를 예측하는 것은 다가오는 사회 이벤트나 과거의 이벤트를 이해하는데 중요한 정보를 제공한다. 따라서 본 논문은 노이즈가 심한 뉴스 기사의 특성을 고려하고, 예측에 널리 사용하고 있는 칼만 필터를 활용하여 키워드 발생빈도를 예측하고, 키워드들간의 관계를 분석하였다. 그 결과로 복잡한 관계를 보유하고 있는 키워드 발생빈도를 예측할 시에, 본 논문에서 제안하는 방법론을 활용하여 높은 예측성능을 보였다.