서지주요정보
Understanding multilingualism in Switzerland using text mining algorithms = 텍스트 마이닝 알고리즘을 이용한 다중 언어 사회 스위스에 대한 이해
서명 / 저자 Understanding multilingualism in Switzerland using text mining algorithms = 텍스트 마이닝 알고리즘을 이용한 다중 언어 사회 스위스에 대한 이해 / Jae-Won Kim.
저자명 Kim, Jae-Won ; 김재원
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8027186

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 14040

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Many of today’s societies are made up of multiple language groups, including groups of monolingual speakers and multilingual speakers of several different languages. We can ask many interesting questions about those societies including how widely each language is used, what topics are communicated in each language, whether there are time differences in the way information gets to each language group, and whether and how members of a language group communicate with members of another language group. We tackle these questions by looking at Switzerland, a highly multilingual society, with a large corpus of geotagged Twitter data. Specifically, we crawled 47 million tweets from 97,577 users, identified the language for each of those tweets, and analyzed those tweets using topic and language analysis tools. By using hierarchical Dirichlet scaling process, a nonparametric topic model for labeled data, we discover which topics are most popular for English, German, French monolinguals, as well as English-German, English-French, and German-French bilingual users. We analyze hashtags for major world events to understand whether certain groups have earlier access to information. We look at the general language use to compare the language variety of monolingual and bilingual users. By applying these computational methods to a large corpus of tweets from Switzerland, we show that there are many interesting linguistic and sociolinguistic phenomena that can be uncovered.

최근 트위터와 같은소셜미디어에서 근래에 볼 수 없는 다중언어의 트윗들을 볼수있게 되었다. 특히나 다중 언어 사회인 스위스에서 생성되는 트윗들은 여러 언어로 이루어져 있고, 그 언어별로 사용자들이 형성 되어 있었다. 이런 환경에서 여러 언어 사회구성이 발견 되었고, 본 논문에서 다양한 분석을 시도 하였다. 첫째로, 유져들의 네트워크를 분석하였고, 둘째로, 유져들이 사용하는 언어의 구사력을 알아 보았다. 또한, 새로운 토픽 모델인 Hierarchical Dirichlet Scaling Process 를 이용해서 그 다양한 그룹들이 가지는 토픽의 분포도를 구하였다. 마지막으로 트위터내에서 사용하는 해쉬태그를 이용하여 다양한 언어 구성원들이 보이는 반응에 대해서 연구 하였다. 이전 연구 사례에서와 같이 다중 언어 유져들은 네트워크가 한 언어를 사용하는 유져보다 많은 것을 스위스 내 트위터 유져에서도 발견 되었다. 하지만, 각기 다른 언어를 구사하는 유져들간의 언어 구사력은 거의 비슷하였다. 토픽 모델링으로 분석한 토픽에서는 하나의 언어를 사용하는 구성원들은 정치와 지역적인 토픽에 관심을 보였고, 다중 언어 구성원은 새로운 테크놀로지에 대한 관심을 보였다. 해쉬태그 분석 결과, 독어를 쓰는 언어 구성원들은 불어를 쓰는 언어 구성원보다 사회적인 문제인 원자력 사고같은 해쉬태그에 더 많은 관심을 보였고, 불어를 쓰는 언어 구성원은 엔터테인먼트와 관련된 해쉬태그에 많은 관심을 보였다. 영어를 쓰는 언어 구성원은 영어 관련 정보에 가장 빨리 반응하고, 그 정보가 다른 언어 구성원에게 퍼지는 현상이 트위터상에서 보였다. 이 같은 결과는 다중언어사회학에서 보여지는 언어와 사회의 연관성이 소셜 네트워크에서도 찾을 수 있었다.

서지기타정보

서지기타정보
청구기호 {MCS 14040
형태사항 iv, 23 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김재원
지도교수의 영문표기 : Hae-Yun Oh
지도교수의 한글표기 : 오혜연
학위논문 학위논문(석사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 18-20
주제 Text Mining
Multilingualism
Social Media
Twitter
Topic Modelling
텍스트 마이닝
다중 언어
소셜미디어
트위터
토픽 모델링
QR CODE qr code