서지주요정보
Fake review detection: Understanding how deception is expressed in writing = 허위 리뷰 탐지: 작문에 나타나는 거짓의 표현방법에 대한 이해
서명 / 저자 Fake review detection: Understanding how deception is expressed in writing = 허위 리뷰 탐지: 작문에 나타나는 거짓의 표현방법에 대한 이해 / Kyungyup Daniel Lee.
저자명 Lee, Kyungyup Daniel ; 이경엽
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027194

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 14048

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

User-generated online reviews for products and services are becoming increasingly important for potential customers in making purchase decisions. At the same time, some online reviews are not trustworthy because some business owners hire people to generate fake reviews, making automatic sentiment analysis and summarization meaningless. Fake review detection however, is not easy for even humans, and therefore previous approaches to automatic detection only had a limited success. Noting from a previous study that people show factitious wring behaviors in writing deceptive reviews, which may cause a word selection process different from that used for writing truthful reviews, we propose a novel approach to fake detection, employing a generative model where word selections in writing documents are assumed to be affected by the topics selected by the writer. In other words, we assume that distinct features of fake reviews come from different “topic” distributions compared to truthful ones and attempt to detect fake reviews by comparing two topic distributions generated by LDA from truthful and fake review document sets. Using an evaluation corpus constructed from Yelp reviews in seven categories, such as ‘hotels’ and ‘restaurants’, we show our method outperforms a previously proposed word-based method by a significant margin and our method has little category dependency. We also make some semantic interpretation of result of topic modeling.

온라인 상품, 서비스 리뷰가 많은 사람들의 구매의사결정에 영향을 미친다. 허위 리뷰는 업주의 금전적인 이득을 위하여 경험하지 않은 사용자가 마치 진짜 인것 처럼 남긴 리뷰를 의미한다. 본 연구에서는 자동으로 허위리뷰를 탐지하고자 하였다. 언어심리학에서 제시하는 기준에 따라 허위 리뷰를 거짓말의 한 형태라고 보고, 거짓말을 할때 사람에게 나타나는 비언어적, 준어적, 언어적 특징들이 리뷰에서 어떠한 형태로 나타날수 있는지 고찰하였다. 거짓말을 할때 나타나는 다양한 형태의 현상들은 부자연스러운 단어 선택 과정과 관련된다는 결론을 내렸다. 부자연스러운 단어 선택 과정은 내용에도 영향을 미친다는것을 데이터에서 뽑은 예시와 심리학 연구결과를 통해 보였다. 인간의 언어 활동 과정을 모사한 LDA 토픽 모델링에서는 작문 과정을 주제 선택과정과 단어선택과정으로 구분지었다. 어떠한 주제를 선택하는지가 단어선택에 직접적인 영향을 주는데 착안하여 허위리뷰는 진실된 리뷰와 다른 주제 분포를 갖는다는 가설을 설정하였다. 실험평가를 위하여 기존연구에서 사용하였던 데이터와 온라인 리뷰사이트 Yelp에서 수집한 데이터를 사용하였는데 인간의 생활과 관련된 7가지 범주를 대상으로 하였다. 데이터의 실효성 및 허위리뷰의 특징을 파악하기위하여 사용자 참여 탐지 실험을 수행하였고 언어심리학적으로 의미있는 결과들을 얻을수 있었다. 본 연구에서 제안하는 허위 리뷰 탐지 모델은 다양한 범주의 리뷰 데이터셋에서 기존 연구의 방법보다 우수한 성능을 보였으며 상호 범주간 평가, 다른 범주의 데이터를 학습하여 탐지, 하였을때에도 거의 유사한 성능을 나타내었다. 이는 레이블링된 허위 리뷰가 적은 실제 환경에서 제안된 모델은 좋은 성과를 낼 수 있다는것을 또한 의미한다. 보다 용이한 의미론적인 결과 분석을 위하여 주제와 주제단어의 유형 분류 기준을 제시하였고 이를 통해 허위리뷰에 나타나는 특징들을 발견하였다.

서지기타정보

서지기타정보
청구기호 {MCS 14048
형태사항 v, 32 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이경엽
지도교수의 영문표기 : Myaeng, Sung-Hyon
지도교수의 한글표기 : 맹성현
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 28-30
주제 Fake review
Topic distribution
Category dependency
Human performance
허위 리뷰
주제 분포
카테고리 의존도
사용자 성능
QR CODE qr code