User-generated reviews on the Web contain reviewers’ sentiments about detailed aspects of the products and services reviewed. However, most of the reviews are plain text and thus a user must read through many of them to obtain information about relevant details. This thesis addresses the problem of automatically discovering what aspects are evaluated in reviews and how sentiments are expressed for each of those aspects. As an approach to this problem, this thesis proposes the Aspect and Sentiment Unification Model (ASUM). This probabilistic generative model incorporates aspect and sentiment together to discover from reviews the aspects that are evaluated positively and the ones evaluated negatively. Given a collection of reviews, ASUM outputs language models, i.e., probability distributions over words, for positive aspects and negative aspects. ASUM was applied to reviews of electronic devices and restaurants, and the results show that the aspects discovered by ASUM match evaluative details of the reviews and capture important aspects that are closely coupled with a sentiment. The results of sentiment classification show that ASUM outperforms other generative models and comes close to supervised classification methods. One important advantage of ASUM is that it does not require any sentiment labels of the reviews, which are often expensive to obtain.
온라인 리뷰에는 상품이나 서비스와 관련해 평가하려는 대상(aspect)과 감정(sentiment)들을 담고 있다. 예를 들어 식당 리뷰에는 그 식당의 주차 시스템에 관해서는 좋은 감정을, 카드를 받지 않는 정책에 대해 서는 나쁜 감정을 담고 있을 수 있다. 하지만 대부분의 리뷰들, 특히 블로그나 커뮤니티에 있는 리뷰들은 일정한 형식 없이 쓰여져 있으며, 따라서 관심있는 항목에 대한 평가 내용을 찾기 위해서 리뷰를 모두 읽어보아야 한다. 이 학위 논문에서는 다음 두 가지 문제를 다룬다. (1) 리뷰들에서 평가되는 중요한 대상들찾기; (2) 다른 대상들에 대해서 감정들이 어떻게 다르게 표현되는지 찾기. 이 두 문제를 한 번에 해결하기 위해 Aspect and Sentiment Unification Model(ASUM, 감정과 대상 통합 모델)을 제안한다. 이 확률 생성 모델은 리뷰어들이 좋게 평가하는 대상들과 나쁘게 평가하는 대상들을 자동으로 찾아내준다. Latent Dirichlet allocation(LDA) 같은 다른 토픽 모델들과 비슷하게 ASUM은 리뷰를 생성하는 과정을 모델링한다. ASUM은 리뷰들이 주어졌을 때 좋은 평가 대상들과 나쁜 평가 대상들에 대한 언어 모델, 즉 단어들의 확률 분포를 출력해준다. 이를 위해 ”satisfied”나 ”disappointed”와 같은 일반적인 감정 단어들만을 필요로 한다. 이 모델을 Amazon.com의 전자기기 리뷰들과 Yelp.com의 식당 리뷰들에 적용한 결과, ASUM이 찾아내는 평가 대상들은 리뷰들에서 평가되는 구체적인 평가 항목들과 일치하며 감정과 깊은 연관이 있는 중요한 평가 대상들을 찾아낸다. 리뷰 감정 분류 평가 결과, ASUM은 다른 생성 모델들보다 성능이 뛰어나고 심지어 지도 학습(supervised) 분류 방식들과 비슷한 성능을 냄을 보였다. ASUM은 리뷰들의 감정 정보를 사용하여 훈련시키는(training) 과정이 없기 때문에 이는 ASUM의 큰 이점이 된다.