Text classification is an important function in text mining and related applications, and several models based on supervised learning such as Na"ive Bayesian and Support Vector Machines have been developed and studied widely for further extensions. For supervised machine learning approaches, availability of training data with classification labels attached to individual text units is critical. Since labeled data are usually scarce, however, it is always desirable to devise a semi-supervised method where unlabeled data are used in addition to labeled ones. This thesis proposes a semi-supervised method for text classification that uses a topic modeling approach, Latent Dirichlet Allocation (LDA) for text clustering. The main trust of the proposed method is to extend LDA by considering topic and word weights in sampling and maintaining a balance in the weights to prevent general words from being clustered into one topic. The LDA results are used as additional labeled data for text classification. A series of experiments were conducted to evaluate the proposed method for classification tasks. The result shows that the topic distributions revealed by the weighted topic models have some discriminative power in classification and that the weighted topic modeling shows higher empirical likelihood than the standard LDA.
문서 분류 방법 연구는 정보 기술 분야에서 중요하게 연구되어 오고 있는 기술로 레이블 데이터를 가진 문서들을 통해 학습하는 과정에서 많은 학습 데이터가 있는 것을 가정한 경우가 많았다. 하지만 많은 경우 충분한 학습 데이터를 확보하지 못한 경우가 많다. 이 때 준 지도학습 방법을 이용하면 적은 데이터로 충분한 분류 성능의 향상을 기대할 수 있다. 특히 문서의 군집화는 준 지도학습을 위해 적용할 수 있는 좋은 방법이며 군집화의 대표적인 연구인 Latent Dirichlet Allo-cation(LDA)을 이용하여 이 문제를 보다 잘 해결할 수 있다. 기존의 토픽 모델링 방법은 비지도학습 기반이며 말뭉치 내 구성하는 모든 단어를 동일한 가중치로 두었다. 본 연구에서는 개별 단어는 가중치를 가지고 있으며 이러한 가중치를 이용하여 모델링을 할 경우 개별 문서의 특성을 보다 잘 드러낼 수 있음을 확인하였다. 또한 가중치를 자동으로 추출하는 과정에서 균형을 잡는 방법을 통해 하나의 토픽에 너무 많은 일반적인 단어들이 집중되지 않도록 하였다. 균형이 잡힌 가중치 토픽 모델링 방법은 가중치를 추정하는 방법과 토픽 모델링 과정을 하나의 통합된 과정으로 만들었으며 이 과정에서 자연스럽게 단어의 중요도를 추정한다. 제안한 모델은 매우 적은 학습 데이터를 가지고도 정확도 향상을 이루어 낼 수 있으며 새로운 문서에 대한 예측 능력 역시 향상되었다.