Characteristics of rumor spreading in online social media and classification = 온라인 소셜미디어 내의 루머 전파의 특징과 초기 루머 구분 연구
서명 / 저자 Characteristics of rumor spreading in online social media and classification = 온라인 소셜미디어 내의 루머 전파의 특징과 초기 루머 구분 연구 / Sejeong Kwon.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄





학술문화관(문화관) 보존서고

DGCT 17005

휴대폰 전송







Rumors are a powerful, pervasive, and persistent force that affects society. Interest in the psychology of rumors and their control has increased since World War II, where these early studies relied on extensive yet manual data collection from books, newspapers, and interviews. Rumors have been described in numerous fashions, where the most well-known definitions are ‘public communications that are infused with private hypotheses about how the world works’ and ‘ways of making sense to help us cope with our anxieties and uncertainties’. As these definitions suggest, rumors help members of a society learn about its important issues by offering a collective problem-solving framework to individuals who participate. With an emergence of microblogging platforms such as Twitter, Facebook, and Instagram, it becomes possible that every person can easily create and spread any type of information. Now a day, many persons utilize these media as main channels of information consumption and spreading as well as communication. However, the remarkable growth of such media has made rumors, spam, and misinformation far more prevalent as well as informative and creative contents. Given that this unexpected side effect is caused by absence of censorship, researchers have paid attention to rumor propagation through online social media in order to build rumor classifiers. However, existing studies are not free from two issues. First, the result can be biased by training data (field and observation period). In order to solve the bias problem, an objective of initiating study is to combine the rumor theories and practice with data. With 60-day observation period, the temporal, structural and linguistic features driven from rumor theories could deliver more intuitive insights to understand rumor spreading. For the temporal features, we proposed a new method called Periodic External Shocks (PES) model that provide better fit of periodic bursts unique to rumors due to the external shock cycle. For the structural features, we extract properties related to propagation process such as the fraction of isolated spreaders and the information flows from low-degree to high-degree users. For the linguistic features, we examine scores of word-level categories particular to rumors like negation and skepticism. In addition to intuitive interpretation of the proposed features, they can differentiate rumors from others with competitive classification performance compared with existing state-of-the-arts. Furthermore, considered theories support that the features would be less sensitive to topic of training data. This work is one of the first in order to analyze the underlying process of rumor propagation based on annotated data drawn from a near-complete social media stream at the time of investigation. Next, we characterize how rumor propagation patterns change over time---from the first three days to nearly two months---based on near-complete data of Twitter. A comprehensive set of user, structural, linguistic, and temporal features were examined and their relative strength as a key rumor trait was compared over varying time windows. Structural and temporal features could effectively distinguish rumors from non-rumors over a long-term window, yet they were not effective during the initial phase of rumors. In contrast, user and linguistic features remained a strong indicator throughout the rumor propagation phases. These findings provide new insights for understanding rumor propagation processes and developing an algorithm for early detection of rumors. Furthermore, linguistic features in this study are less sensitive to fields of collected data (e.g., IT, health, Music and so on) compared with other studies because of the selected vocabularies to extract them. The vocabularies about describing thinking styles (e.g., maybe, perhaps, but, not, and never) and cognitive mechanisms (e.g., cause, know, and ought). We, now, have an insight about changes in predictive powers of different feature sets based on observation period. After relieving the bias issue, we deal with second issue that previous studies did not provide a clear criterion for stopping monitoring and classification. Based on the findings, we apply deep learning algorithms to user and linguistic features. Unlike most previous studies on rumor detection, we rephrase the user and linguistics observation as sequences as inputs for the algorithm. Handling sequential data is yet challenging since most machine learning algorithms deal with stationary data as inputs. With an advance of RNN, it is now possible to handle sequential data for regression or classification. Among existing variations of RNN, we introduce and apply Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU) to build a rumor classifier. The proposed rumor classification algorithm showed competitive classification performances with only a small number of initial Tweets. To the best of our knowledge, this is the first super-fast rumor classification attempt that suggests a clear criterion for stopping data monitoring and classification. The strength of this dissertation is based on bridging theory and practice as well as applying sequential data and deep learning algorithms for rumor identification and detection. We hope that this work will provide a cornerstone to understand rumor propagation in online social media and to build early stage rumor detection.

트위터와 같은 마이크로블로깅 플랫폼은 빠르고 광범위한 정보 전파력을 인정받아 이에 기반한 바이럴 마케팅 및 트렌드 분석과 같은 새로운 연구도구로써 각광을 받고 있다. 하지만 온라인 미디어 플랫폼은 자체적인 정보 검열 과정이 없기에 잠재적으로 오정보 전파와 같은 문제를 유발할 수도 있다. 악성 루머의 전파는 마이크로블로깅 플랫폼의 발달과 함께 대두된 대표적인 이슈 중의 하나이다. 초기 루머 연구들은 온라인에서 루머의 전파를 시각화 및 측정하여 이를 이해하는 기반을 다졌고, 이를 통해 설문 또는 인터뷰에 기반한 루머 전파 관련 이론들이 온라인 미디어 상에서도 대부분 적용이 가능함을 확인할 수 있었다. 반면, 최근의 루머 연구는 빅데이터를 기반으로 루머와 비루머의 자동적인 구분을 목표로 기계학습 중심의 도구 개발을 해왔다. 관련 연구들은 자연어 처리 기법과 네트워크로부터 임의 선정된 변수 그리고 질병 확산 모델의 매개변수들을 기계학습의 입력값으로 활용하여 높은 수준의 루머 구분력을 보이는 변수 및 기계학습 알고리즘을 제안했다. 하지만 대부분의 연구들은 크게 두 가지 한계점을 가진다. 첫번째는 모든 기계학습 알고리즘들이 근본적으로 가질 수 밖에 없는 이슈인 편향성 (bias)이다. 즉, 제안된 알고리즘이 다른 유형의 자료에서도 적절히 동작할 것이라는 보장이 없다는 것이다. 두번째는 정확한 루머 구분 시점이다. 기존의 연구들은 대부분 전파가 끝난 시점에서 수집 가능한 모든 자료를 활용하고 있다. 따라서 언제까지 모니터링을 하고 루머 여부를 확인해야 하는지에 대한 명확한 기준을 제시하지 못하기에 사후 루머 구분에는 활용 될 수 있지만 근실시간의 루머 탐지에는 효용성이 없다. 본 연구에서는 이 두 가지 문제를 해결하고 최종적으로 이에 기반한 아주 빠른 근실시간 루머 구분 알고리즘을 제시하고자 한다. 먼저 편향성 문제를 해결하기 위한 초동 연구로써 변수 선정의 과정에 사회학 및 심리학 분야에서 입증된 루머 관련 이론들을 적극 활용하였다. 60일의 관찰 기간동안 해당 이론들과 자료를 함께 고려하여 시계열 ,네트워크 구조, 그리고 언어적 특징을 정의하였다. 시계열적 특징을 위해 Periodic External Shocks (PES) 모델을 제안하였으며, 이 모델은 여러 외부적 요인으로 인해 나타나는 루머의 전파 특징을 기존 모델보다 우수하게 설명할 수 있었다. 또한 새롭게 제안된 네트워크 구조는 루머만의 독특한 전파 흐름 방향 및 소규모 산발적 전파 양상을 수치화할 수 있는 방법을 제공했다. 언어적 특징은 주어진 정보에 대한 사람들의 의심 및 부정과 관련된 심리적 반응을 수치화하는 도구를 활용하였다. 이러한 특징들은 기존 방법보다 훨씬 더 직관적인 루머 전파 이해를 돕는 것은 물론 자료에만 의존하는 기존 연구들보다 자료로 인해 발생하는 편향의 문제로부터 상대적으로 더 자유로울 수 있었다. 또한 해당 특징들에 기반하여 제안된 루머 구분 알고리즘의 정확도는 기존 연구와 유사하거나 높은 수치를 보였다. 우리는 또 다른 편향의 원인도 해결하고자 노력하였다. 그것은 바로 루머 구분 알고리즘 학습을 위한 관찰 기간이다. 루머는 시간에 따라 해당 정보에 대한 사람들간의 의사소통 패턴이 달라진다는 사실이 수많은 연구를 통해 증명되었다. 즉, 하나의 고정된 관찰기간 동안에만 도출된 결과는 동일한 자료일지라도 다른 관찰기간에 얻어진 결과와 같다고 보장할 수 없다는 것이다. 본 연구는 이러한 이슈를 해결하기 위해 3일부터 2개월에 이르는 관찰 기간동안 루머와 비루머의 전파 양상의 차이점과 루머 구분력의 변화를 추적하였다. 이 연구에서는 사용자, 네트워크 구조, 언어적, 그리고 시계열 특징이 고려되었다. 네트워크 구조 및 시계열 특징은 초기에는 매우 부정확한 루머 구분력을 보이지만, 시간이 지남에 따라 해당 구분력이 다른 특징들을 압도하는 수치로 상승하였다. 반대로 사용자와 언어적 특징은 루머 전파 초반부터 후기까지 전반적으로 좋은 루머 구분력을 보이는 것으로 확인되었다. 우리는 위 연구들을 통해 기존 루머 구분 연구들이 가지고 있는 편향의 문제를 줄일 수 있었다. 추가적으로 이러한 결과들은 초기 루머 구분을 위한 알고리즘에 중점적으로 고려할 특징들이 무엇인지에 대한 통찰을 제공한다. 편향의 문제를 해결한 후 본 연구는 루머 구분 시점의 문제를 다루었다. 기존의 루머 구분 연구들은 대부분 정보 전파가 마무리가된 후에 수집된 자료를 모두 알고리즘에 활용하였다. 극소수의 논문만이 어느 정도의 시간이 흐른 후에 그들이 제시한 방법론이 제대로 작동하는지에 대한 대략적인 첨언을 제공 하였지만, 해당 정보조차 정확한 시점이 아닌 평균값이었다. 이러한 첨언은 정보의 전파 속도가 유형과 관심도에 따라 판이하게 다른 점을 고려할 때 적절하지 않다고 할 수 있다. 불과 수시간만에 수천, 수만으로 재생산, 확산되는 것을 지켜보고만 있어야 하는 경우도 있기 때문이다. 우리는 마지막 단계로 모니터링을 멈추고 해당 정보의 루머 여부를 확인하는 적절한 시점에 대한 정확한 기준을 제공하고자 한다. 본 연구에서 우리가 제시하는 기준은 시간이 아닌 초기 트윗의 수이다. 앞에서 언급된 연구결과를 반영하여 짧은 관찰기간에서도 높은 루머 구분력을 보인 사용자와 언어적 특성을 중심으로 이 루머 구분 연구를 진행하였다. 두 개의 특징과 관련된 정보 활용을 최대화하기 위해 관찰 값들을 여러 개의 시계열로 표현하였으며, 이것을 입력값으로 다룰 수 있는 알고리즘으로 딥러닝 기법을 활용하였다. 다양한 딥러닝 기법 중 Recurrent Neural Network (RNN)의 파생기법인 Long Short Term Memory (LSTM)과 Gate Recurrent Unit (GRU)를 활용한 루머 구분 알고리즘은 아주 적은 수의 초기 30-50개의 트윗만으로도 경쟁력 있는 루머 구분력을 보이는 것으로 확인되었다. 본 연구는 정확한 모니터링 및 현실적인 루머 구분 시점을 제시한 최초의 연구이며, 기존 방법들과 비교하여 제시한 모니터링 기간은 압도적으로 짧으면서도 우수한 루머 구분력을 보였다. 본 연구의 의의는 변수의 제안 과정에서 기존의 사회학 및 심리학 이론을 적극적으로 활용한 학제 간 융합 연구의 좋은 예시가 되는 것은 물론 최종적으로 딥러닝을 활용하여 아주 빠르고 경쟁력 있는 결과를 보이는 루머 구분 알고리즘을 제안한 것에 있다. 본 연구가 향후 루머의 전파를 이해하고 실제적인 초기 루머 탐지 시스템 구성에 중요한 디딤돌이 될 수 있기를 희망한다. 본 연구자는 앞으로도 루머 뿐만 아니라 사회적으로 여러 소모적인 논쟁의 씨앗이 될 수 있는 유형의 정보 전파를 인지하고 이를 체계화 및 알릴 수 있는 종합적인 시스템의 구축을 염두에 두고 지속적인 연구를 진행할 계획이다.


청구기호 {DGCT 17005
형태사항 v, 51 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 권세정
지도교수의 영문표기 : Meeyoung Cha
지도교수의 한글표기 : 차미영
학위논문 학위논문(박사) - 한국과학기술원 : 문화기술대학원,
서지주기 References : p. 44-47





이 주제의 인기대출도서