서지주요정보
Inferring user profile using textual content on twitter = 단어를 이용한 트위터 상의 사용자 프로파일 유추에 관한 연구
서명 / 저자 Inferring user profile using textual content on twitter = 단어를 이용한 트위터 상의 사용자 프로파일 유추에 관한 연구 / Kyoung-Min Ryu.
저자명 Ryu, Kyoung-Min ; 류경민
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027136

소장위치/청구기호

학술문화관(문화관) 보존서고

MWST 14009

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In the past few years online social media have risen as a key venue for communicating with the public and monitoring public opinions. People talk about movies they watch, restaurants they visit, and views they enjoy, insinuating their whereabouts. In order to weigh in the public opinions expressed on such social media as much as traditional poll results or to optimize businesses for specific class of users, the representativeness of the opinions has to be accounted for. A profile such as age, gender, and location of users is one of the key factors in the representativeness, but are not available by default in online social networking platform. The number of users who make their profiles public is relatively small, compared to the huge number of users in online social networking services and social media platforms. Besides, there are several studies inferring user profile on various social networking services, but none of them apply their methods on Korean Twitter users. In this work we propose a new framework to infer a Korean user`s main location of activities, age, and gender in Twitter using their textual contents. Our approach is based on a probabilistic generative model that filters local words, employs data binning for scalability, and applies a map projection technique for performance in inferring user’s main location. Also, we use classifier for inferring user’s age and gender and apply feature selection for filtering relevant features to classes. We evaluate our method with users who have focused GPS-tagged tweets or with manually annotated users who use profile-relevant words in their description data. For inferring Korean user’s location, we report that 60% of users are identified within 10km of their locations, a significant improvement over existing approaches. And for inferring user’s age and gender, we report that 75% and 88% of users are correctly identified.

최근들어 온라인 소셜미디어가 대중과 소통하거나 여론 파악의 중요한 수단중의 하나가 되어가고 있다. 사람들은 본인들의 관심사, 좋아하는 장소, 또는 사회 문제에 관한 의견 등을 소셜미디어 내에서 서로 이야기하고 소통한다. 하지만 이러한 소셜 미디어 내의 관심이나 의견들이 현실과 반드시 일치하는 것은 아니다. 소셜 미디어가 아직 젊은 나이층을 중심으로 움직이고 있고, 소셜미디어 내의 전체 성별 분포가 어떻게 되는지에 관한 연구가 부족한 상태에서 소셜미디어의 의견이 곧 현실의 의견과 같다고 생각하는 것은 무리가 있다. 따라서 소셜미디어 내의 사용자의 성별이나 나이, 지역 등의 프로필 분포를 파악하는 것은 소셜미디어 상의 의견을 현실에 투영하기 위해 반드시 필요한 과정이라고 할 수 있다. 하지만 많은 소셜 미디어들이 사용자의 프로필을 공개하지 않거나 부분만 공개하고 있고, 의무적인 사항이 아니기 때문에 많은 사용자들이 자신의 프로필을 공개하지 않는다. 또한 보안에 대한 사회적인 우려 때문에 더 많은 사용자들이 자신의 프로필을 공개하는 것을 꺼려하고 있다. 본 연구에서는 이러한 소셜미디어의 사용자 프로필 정보 부족 문제를 줄여보고자 트위터에서 사용자가 올린 단어들을 통해 사용자의 나이, 성별, 위치를 추정하는 방법을 제시하였다. 위치를 유추할 때는 확률 모델을 통해 최대우도추정법(MLE)을 사용하여 단어의 위치 집중도와 확산분포를 파악하여 한곳에 집중되어 있는 단어와 단어의 중심 위치를 우선 찾아내어 위치 관련 단어라고 가정하였다. 그 후에 각각의 사용자가 사용한 단어들 중에 위치 관련 단어들의 중심 위치의 무게중심을 구하여 이를 사용자의 위치라고 추정하였다. 무게중심을 구할때는 지도 투영법을 사용하여 곡면으로 구성되어 있는 지구를 직선으로 가정함에서 오는 오차를 줄여 위치 추정 정확도를 높였다. 성별과 나이를 유추할 때는 사용자들의 단어를 특징(feature)으로 하여 분류기(classifier)를 만들었다. 또한 정확도를 높이기 위해서 특징 선택 방법 중의 하나인 mutual information을 사용하여 클래스와 관련된 특징을 골라내었다. 성별을 유추할 때는 남,여 고등학교에서 모은 이름 정보를 통해 정확도를 높이는 단계를 추가하였다. 위치 추정 방법을 적용한 결과 10km 이내에서 이전 논문들보다 20%이상 높은 정확도를 보여주었고, 성별과 나이는 이전 논문과 비슷하거나 3% 내외의 조금 나은 정확도가 나왔다. 또한 성별과 나이를 구분하는 단어들을 살펴본 결과 사회언어학에서 나온 성별 및 나이의 특징을 반영함을 알 수 있었다. 이를 통해 우리가 소셜미디어에서 사용하는 언어가 현실에서의 성별 및 나이에 따른 언어 행태를 반영한다는 사실을 유추해 볼 수 있다.

서지기타정보

서지기타정보
청구기호 {MWST 14009
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 류경민
지도교수의 영문표기 : Sue-Bok Moon
지도교수의 한글표기 : 문수복
학위논문 학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공,
서지주기 References : p. 24-25
주제 social media
profile
data mining
소셜미디어
프로필
데이터마이닝
QR CODE qr code