서지주요정보
Text mining: effective feature extraction and classification using NMF algorithm = 텍스트 마이닝: NMF 알고리즘을 이용한 효율적 특징 선택 및 분류
서명 / 저자 Text mining: effective feature extraction and classification using NMF algorithm = 텍스트 마이닝: NMF 알고리즘을 이용한 효율적 특징 선택 및 분류 / Paresh Chandra Barman.
저자명 Barman, Paresh Chandra ; 발만, 파레쉬 찬드라
발행사항 [대전 : 한국과학기술원, 2008].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8019675

소장위치/청구기호

학술문화관(문화관) 보존서고

DBiS 08007

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In this dissertation, we propose a novel concept termed nonnegative matrix factorization based on supervised feature selection and adaptation (NSFA) algorithm as an extension of unsupervised nonnegative matrix factorization (NMF) to document classification. In the text mining systems, term frequency based document vector representation model is the most common one where the terms are regarded as features. The natural language terms or words have some inherent problems such as synonymy that prevent terms being optimal features. The unsupervised NMF algorithm is used to extract the meaningful basis factor and corresponding coefficient factors of the documents where the basis vectors capture the concept of the documents by analyzing the co-occurrence distribution of terms. These basis vectors are used as features instead of individual terms. The unsupervised feature extraction reduces the feature dimension and also addresses the problems of natural language text. All features that are extracted by unsupervised NMF algorithm may not be relevant and optimal for classification. Based on the given category information the relevant features are selected and adapted to enhance the classification performance. As a selection criterion the rank of mutual information (MI) based relevance measure is used. For adaptation process standard NMF structure with single layer perceptron (NMF-SLP) and Feed-forward multilayer perceptron (MLP) networks are used. For NMF-SLP network a hybrid feature adaptation algorithm (NMFH) is proposed where the document feature vectors and classifier layer is trained on the basis of gradient descent based error minimization rule and the basis or concept vectors of the NMF layer are trained based on the KL-divergence minimization rule. For feed-forward multilayer perceptron (MLP) network we proposed two different learning algorithms named as MLP-NMFI and MLP-NMFI-NC. MLP-NMFI is defined as the MLP training by error back-propagation (EBP) rule with NMF initialization. To improve the learning of EBP algorithm we used the knowledge that is extracted by NMF algorithm based on the distribution of given data is used to initialize the synaptic weight of the MLP feature extraction layer. MLP-NMFI-NC is defined as MLP-NMFI learning with nonnegative constraint. In MLP-NMFI learning the features can be adapted both with the excitatory and inhibitory connections of input neurons or terms. In MLP-NMFI-NC feature adaptation algorithm the hidden features are restricted to adapt only with excitatory or related terms. This restriction can be adapted meaningful text features. A multiplicative update rule based on error gradient descent is derived to adapt the synaptic weights of feature extraction layer. The proposed networks and algorithms for NSFA model selects a subset of relevant features and adapts based on the given category information. The simulated results show the proposed feature adaptation algorithms with distinct individual properties enhance the classification performance over the unsupervised NMF feature extraction algorithm.

이 논문에서, 우리는 비음수 행렬 분해법(NMF)을 이용한 문서 분류의 확장으로서 NMF에 기반한 교사 특징 선택 및 적응 알고리즘을 제안한다. 텍스트 마이닝 시스템에서 단어 빈도에 기반한 벡터 표현 모델은 가장 일반적으로 사용되는 특징이다. 자연언어의 용어 빈도는 동의어등의 태생적 문제때문에 최적의 특징이 되지 못하고 성능에 한계를 보인다. 의미있는 기반 요소(basis factor)와 계수를 찾기 위해 교사 학습 기반의 NMF 알고리즘이 사용되었는데, 제안된 특징은 용어들간의 동시 발생 빈도 분석을 통한 문서의 내용 정보 를 추출한다. 본 연구에서는 각각의 단어 빈도 대신, 이러한 내용 백터를 특징으로 활용하였다. 비교사 학습에 기반한 특징 추출은 특징의 차수를 줄일 뿐만 아니라 자연언어 문서의 문제들을 다룰 수 있도록 해준다. 하지만 unsupervised NMF 알고리즘은 문서 분류에 가장 적합한 알고리즘이 아닐 수도 있다. 그래서 본 연구에서는 기존에 분류된 문서의 정보로부터 성능향상을 위한 관련특징들을 선택하고 적응시켰으며, 선택 및 적응의 기준으로 상호 정보량(mutual information rank)에 기반하여 계산한 유사도를 사용하였다. 적응과정에는 단일층 신경망(SLP)과 결합된 표준 NMF(이하 NMF-SLP)와 다층 일방향 신경회로망(MLP)이 각각 사용되었다. NMF-SLP를 위해, 혼합 특징 적응 알고리즘이 제안되었는데, 여기에서 문서 특징 벡터 및 인식단을 경사 하향(gradient descent)에 기반한 오차 최소화 기법을 이용하고, NMF단의 기반 벡터들은 KL-분산(KL-divergence) 최소화 기법을 이용하여 각각 학습시켰다. MLP에서는 MLP-NMFI와 MLP-NMFI-NC라는 두가지 학습 알고리즘을 제안하였다. MLP-NMFI는 NMF초기화 이후 MLP를 오차 역전파 학습(EBP)하는 방법이다. EBP 알고리즘을 개선하기 위해 우리는 NMF 알고리즘으로 추출한 정보를 신경망의 연결강도 초기값으로 사용하였다. MLP-NMFI-NC는 MLP-NMFI에 비음수 제한조건을 추가한 것이다. MLP-NMFI 학습에서는 특징 단의 뉴런이 입력단으로부터 흥분 연결과 억제 연결 모두를 통해 적응할 수 있지만 MLP-NMFI-NC에서는 흥분 연결에 의해서만 적응하도록 제한된다. 이러한 제한조건은 의미있는 문서의 특징추출에 적용될 수 있으며, 특징 추출단의 연결강도 적응을 위해 오차 경사 하향에 기반한 곱셈식 갱신 법칙(update rule)을 유도하였다. NSFA모델을 위해 제안된 본 신경망과 알고리즘은 주어진 문서 분류 정보에 기반하여 연관성 있는 특징들의 일부를 선택하였고 적응시킨다. 시뮬레이션 결과를 통해, 우리는 제한된 각기 다른 특성을 갖은 알고리즘들이 기존의 비교사 학습 기반 NMF의 특징 추출 방법보다 더욱 향상된 문서 분류 성능을 보임을 확인할 수 있었다.

서지기타정보

서지기타정보
청구기호 {DBiS 08007
형태사항 vii, 103 p. : 삽도 ; 26 cm
언어 영어
일반주기 저자명의 한글표기 : 파레쉬 찬드라 발만
지도교수의 영문표기 : Soo-Young Lee
지도교수의 한글표기 : 이수영
학위논문 학위논문(박사) - 한국과학기술원 : 바이오및뇌공학과,
서지주기 References : p. 95-99
주제 Non-negative Matrix Factorization;Text Mining;Document Classification;Feature Adaptation;Feature Selection
비음수 행렬 분해법;텍스트 마이닝;문서 분류;특징 적응;특징 선택
QR CODE qr code