한국과학기술원 도서관

서지주요정보
Domain adaptation in sentiment classification based on probabilistic models = 확률 모델에 기반한 의견 분류에서의 도메인 적응
서명 / 저자	Domain adaptation in sentiment classification based on probabilistic models = 확률 모델에 기반한 의견 분류에서의 도메인 적응 / Cheong-An Lee.
발행사항	[대전 : 한국과학기술원, 2013].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8024730

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 13078

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Sentiment classification is a task to determine overall contextual polarity of a review document. Sentiment classification can be used for a company to check the problem of their products or services from the large data. It also can be used for customer to decide the products or services they would consume. There are two main difficulties dealing with sentiment classification. First, the documents are usually represented as a bag-of-words model and the dimension of such document data is very large, so we need methods to extract or reduce the number of dimension. Secondly, if the domain is different for training data and testing data, the performance decreased severely. However, it is hard to get the labeled data for the all the domain we are interested in. To extract or reduce the dimension, we tried three methods: principal component analysis (PCA), conditional entropy (CE), and independent component analysis (ICA). We can reduce the dimension using PCA without any loss of information. By changing the estimation of probability a little bit, we are able to achieve more balanced estimation of CE, which gives robust recognition through different number of features we selected. ICA can make the features independent, so that it was expected to give better result when we used it with CE. However, experiments suggest that ICA is not useful for CE. To resolve the problem of domain difference, we propose domain adapting Boltzmann machine algorithm. The big difference between domains comes from the word dictionary used for each domain. So we take the approach to generate target domain words that are not appearing in source domain, and vice versa. In this thesis, we first applied this idea to simple toy problem and then real world problem. We improved the classification accuracy using our algorithm.

이 논문의 주제는 어떤 상품이나 서비스에 대한 평가 글이 주어졌을 때 그 평가가 상품을 좋게 평가하는지 나쁘게 평가하는지를 자동으로 알아내는 것이다. 이를 문서 감정 분류라고 한다. 우리가 문서 감정 분류를 잘 할 수 있게 된다면 회사에서 회사의 상품이 어떤 평가를 받는지 알아내는 데 또는 고객들이 어떤 상품이 좋은 평가를 받는지 알아내는 데 크게 도움이 될 것이다. 이런 감정 분류를 하는 데에 두 가지 어려운 점이 있는데 하나는 사용되는 단어가 매우 많다는 것이다. 두 번째로는 이런 감정 분류 방법을 분류기가 학습을 하기 위해서는 평가 글들과 그 평가 글들이 상품을 좋게 평가했는지 나쁘게 평가했는지 알려주는 레이블이 필요하다. 하지만 상품이나 서비스에 대한 평가 글은 얻기 쉽지만 이런 평가 글의 레이블은 구하기 힘들다. 그리고 어떤 상품들의 평가 글과 레이블로 학습을 한 분류기로 다른 상품에 대한 평가 글을 분류한다면 두 개의 다른 상품들을 표현하는 단어들이 상당히 다르기 때문에 분류가 잘 되지 않을 것이다. 사용되는 단어가 매우 다양하다는 점을 이 논문에서는 3가지 방법을 통해 해결하려고 하였다. 첫 번째로는 주성분 분석(principal component analysis)을 이용하였다. 이 분석 알고리즘은 기계 학습 전반에서 특징들이 많을 때 그 특징들을 줄이기 위해서 많이 사용하는 알고리즘이다. 이 분석 알고리즘을 적용하여 효과적으로 문서의 특징들을 찾아내었고 전체 단어를 다 사용하는 것과 같은 효과를 낼 수 있었다. 두 번째로는 상호 정보량(mutual information)을 이용하는 방법인데 이 또한 문서 분류에서 많이 사용되는 방법으로 각 단어가 레이블에 대한 정보를 얼마나 포함하고 있는지를 기준으로 꼭 필요한 단어만 선별해내는 방법이다. 이 논문에서는 어떤 단어가 전체에서 매우 작게 나올 경우에 어떤 문제가 발생하는지 분석하고 어떻게 해결할지 간단한 방법을 제시하였다. 세 번째로는 독립 요소 분석(independent component analysis)을 이용하는 방법인데 문서 분류에 적용하기에는 여러 가지 문제점이 있어 문서 감정 분류에도 적용하기는 어려울 것으로 생각된다. 학습하는 글들의 상품 분야와 분류할 글들의 상품 분야가 다를 경우의 문제를 해결하기 위해서 우리는 분류하는 글들에서 사용되는 단어들을 학습하는 글들에 사용되는 단어들로 바꿔주는 방법을 사용하였다. 이를 위해서 볼츠만 머신(Boltzmann Machine)을 변형하여 분류할 글이 학습된 글들의 상품 분야를 표현한다면 어떤 단어를 썼을지 예측할 수 있는 확률 모델을 만들었다. 그리고 이 모델을 학습하기 위해 여러 가지 방법을 제안하였고 우리가 제안하는 방법을 썼을 경우에 아무런 방법을 쓰지 않았을 경우보다 일부 상품 분야에 대해서 효과가 있는 것을 확인하였다. 이 논문에서는 많은 수의 단어들을 해결하는 방법을 정리하고, 학습하는 상품의 분야와 분류할 상품의 분야가 다를 경우를 해결하는 새로운 접근 방법을 제안하였고 그 가능성을 보였다. 인터넷 상의 수많은 평가 글들을 분석하는 일이 더 중요해지고 있는데 이 논문에서 이를 해결하는 새로운 방향을 제시했다는 점에서 의미가 있다.

서지기타정보

서지기타정보
청구기호	{MEE 13078
형태사항	v, 57 p. : 삽화 ; 30 cm
언어	영어
일반주기	저자명의 한글표기 : 이청안 지도교수의 영문표기 : Soo-Young Lee 지도교수의 한글표기 : 이수영
학위논문	학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기	References : p. 50-51

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서