서지주요정보
준 지도학습 분류를 위한 균형이 잡힌 가중치 토픽 모델링 방법 = Balanced weighting topic models for semi-supervised classification
서명 / 저자 준 지도학습 분류를 위한 균형이 잡힌 가중치 토픽 모델링 방법 = Balanced weighting topic models for semi-supervised classification / 이성규.
저자명 이성규 ; Lee, Seong-Gyu
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027139

소장위치/청구기호

학술문화관(문화관) 보존서고

MWST 14012

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Text classification is an important function in text mining and related applications, and several models based on supervised learning such as Na"ive Bayesian and Support Vector Machines have been developed and studied widely for further extensions. For supervised machine learning approaches, availability of training data with classification labels attached to individual text units is critical. Since labeled data are usually scarce, however, it is always desirable to devise a semi-supervised method where unlabeled data are used in addition to labeled ones. This thesis proposes a semi-supervised method for text classification that uses a topic modeling approach, Latent Dirichlet Allocation (LDA) for text clustering. The main trust of the proposed method is to extend LDA by considering topic and word weights in sampling and maintaining a balance in the weights to prevent general words from being clustered into one topic. The LDA results are used as additional labeled data for text classification. A series of experiments were conducted to evaluate the proposed method for classification tasks. The result shows that the topic distributions revealed by the weighted topic models have some discriminative power in classification and that the weighted topic modeling shows higher empirical likelihood than the standard LDA.

문서 분류 방법 연구는 정보 기술 분야에서 중요하게 연구되어 오고 있는 기술로 레이블 데이터를 가진 문서들을 통해 학습하는 과정에서 많은 학습 데이터가 있는 것을 가정한 경우가 많았다. 하지만 많은 경우 충분한 학습 데이터를 확보하지 못한 경우가 많다. 이 때 준 지도학습 방법을 이용하면 적은 데이터로 충분한 분류 성능의 향상을 기대할 수 있다. 특히 문서의 군집화는 준 지도학습을 위해 적용할 수 있는 좋은 방법이며 군집화의 대표적인 연구인 Latent Dirichlet Allo-cation(LDA)을 이용하여 이 문제를 보다 잘 해결할 수 있다. 기존의 토픽 모델링 방법은 비지도학습 기반이며 말뭉치 내 구성하는 모든 단어를 동일한 가중치로 두었다. 본 연구에서는 개별 단어는 가중치를 가지고 있으며 이러한 가중치를 이용하여 모델링을 할 경우 개별 문서의 특성을 보다 잘 드러낼 수 있음을 확인하였다. 또한 가중치를 자동으로 추출하는 과정에서 균형을 잡는 방법을 통해 하나의 토픽에 너무 많은 일반적인 단어들이 집중되지 않도록 하였다. 균형이 잡힌 가중치 토픽 모델링 방법은 가중치를 추정하는 방법과 토픽 모델링 과정을 하나의 통합된 과정으로 만들었으며 이 과정에서 자연스럽게 단어의 중요도를 추정한다. 제안한 모델은 매우 적은 학습 데이터를 가지고도 정확도 향상을 이루어 낼 수 있으며 새로운 문서에 대한 예측 능력 역시 향상되었다.

서지기타정보

서지기타정보
청구기호 {MWST 14012
형태사항 v, 58 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Seong-Gyu Lee
지도교수의 한글표기 : 맹성현
지도교수의 영문표기 : Sung-Hyon Myaeng
학위논문 학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공,
서지주기 참고문헌 : p. 53-55
주제 토픽 모델링
문서 분류
군집화
LDA
Topic modeling
Text classification
Text clustering
Latent Dirichlet Allocation
LDA
QR CODE qr code