서지주요정보
Tower of Babel: a crowdsourcing game building sentiment lexicons for resource-scarce languages = 바벨탑: 다국어 감정분석 지원을 위한 집단지성 게임 기반의 감정분석자원 생산 방법
서명 / 저자 Tower of Babel: a crowdsourcing game building sentiment lexicons for resource-scarce languages = 바벨탑: 다국어 감정분석 지원을 위한 집단지성 게임 기반의 감정분석자원 생산 방법 / Yoon-Sung Hong.
저자명 Hong, Yoon-Sung ; 홍윤성
발행사항 [대전 : 한국과학기술원, 2013].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8025675

소장위치/청구기호

학술문화관(문화관) 보존서고

MWST 13008

SMS전송

도서상태

이용가능

대출가능

반납예정일

초록정보

With the growths of the Web 2.0 and social media, the size of data on the Web has been continuously increasing. According a Cisco statistics, the Web traffic has already reached 5,000 PB per month worldwide as of 2012, and is continuously increasing. In the realm of social media, Twitter produces more than 400 million tweet messages everyday, and Facebook generates more than 2.5 billion items everyday in 2012. These Web data mainly take text format, and are written in multiple languages. Facebook currently serves 70 languages, and 75 percent of its users live outside of the U.S. More than 60 percents of tweet messages in 2012 were written in non-English languages, and the volume of multilingual messages is rapidly increasing. Sentiment analysis is one of the key enabling technologies in the field of natural language processing. Sentiment analysis finds many useful applications in various domains such as brand management, public opinion survey, predicting stock market, etc. For English, there have been numerous publicly available resources for sentiment analysis. Sentiment analysis has gone beyond the boundary of research and started to be used commercially. However, we still lack resources to perform sentiment analysis in non-English languages because most computational linguistic research focuses on English and building high quality resources for sentiment analysis is costly. We term non-English languages resource-scarce languages in this work. We propose Tower of Babel (ToB), a crowdsourcing game building sentiment lexicons for the resource-scarce languages. ToB aims to lower the costs for building the resources for sentiment analysis by crowdsourcing and gamifying manual annotation process which has been the best yet costly and inefficient practice for building the resources. ToB builds the sentiment lexicon over other types of sentiment resources since the sentiment lexicon is the most computationally convenient and generalizable. We conducted an experiment with 135 participants to explore the difference between our solution and a conventional manual annotation method for building the sentiment lexicon. We evaluated ToB in terms of effectiveness, efficiency, and satisfactions. Based on the result of the evaluation, we conclude that sentiment classification via ToB is accurate, productive and enjoyable.

현재 많은 사람들이 트위터, 페이스북, 블로그 등과 같은 소셜 미디어 서비스를 통해 소통하고 있습니다. 소셜 미디어 서비스를 통한 소통에는 의견이나 감정이 수반되는데 감정분석 (sentiment analysis) 는 글에 내포된 의견과 감정을 자연어 처리를 통해 축출하는 기술입니다. 감정분석은 브랜드 매니지먼트, 마케팅, 여론조사 등에 꼭 필요한 핵심 기술로 자리잡고 있습니다. 감정분석의 이점과 확실한 활용처가 존재함에도 불고하고 현재 감정분석은 주로 영어에서만 이루어지고 있습니다. 영어가 만국 공용어인 점과 미국과 같은 영어권 국가들은 다른 언어를 사용하는 국가들에 비해 월등히 많은 연구비를 투자하고 있기 때문에 대부분의 연구와 감정분석에 필요한 resource 및 tool 들이 영어에 편중되어 있는 실정입니다. 감정분석을 하기 위해서는 기본적으로 sentiment lexicon 혹은 annotated corpora 같은 knowledge base가 필요한데 이러한 knowledge base를 만들기 위해서는 많은 노력과 비용을 지출해야 합니다. 현재까지 비 영어 언어에서 이러한 knowledge base를 구축하기 위해 제시된 방법으로는 영어로 된 리소스를 다른 언어로 번역하는 방법과 작은 knowledge base 를 manual 하게 구축하여 WordNet과 같은 온톨로지나 유의어 사전과 그래프 알고리즘을 이용하여 knowledge base 를 확장하는 방법이 있습니다. 하지만 이 방법은 manual annotation 방법에 비해 적은 비용이 들지만 정확성이 떨어지는 단점이 있습니다. 이러한 단점을 보안하기 위해 본 연구에서는 집단지성 게임을 이용하여 sentiment lexicon을 만드는 방법을 제안합니다. 게임을 이용할 경우 양질의 manual annotation 을 비용 없이 얻을 수 있는 장점이 있습니다. 이 방법이 성공하기 위해서는 재미있는 게임을 만드는 것이 관건입니다. 본 연구에서는 테트리스와 같은 기존의 성공한 게임과 sentiment classification task를 결합하여 사용자가 할 만한 게임을 만드는데 집중하였습니다. 또한, human computer interaction 분야에서 자주 활용되는 paper prototyping 과 같은 방법을 이용하여 게임을 구현하기 전에 소수의 사용자들과 검증 절차를 거쳤습니다. 실험을 통해서 기존의 manual annotation 방법과 본 연구에서 개발한 게임을 sentiment classification 정확도, 생산성, 그리고 재미도를 기준으로 실험을 통해 비교 평가하였습니다. 실험 결과 게임을 이용하여 sentiment lexicon을 만드는 것이 정확도 측면에서 기존의 방법에 뒤쳐지지 않을 뿐만 아니라 더 높은 생산성과 재미를 불러 일으키는 것을 확인하였습니다. 바벨탑을 통해 과거 고되고 비용이 많이 드는 감정분석 리소스를 생산하는 과정이 좀 더 편이해졌습니다. 추후에 본 연구에서 개발된 게임을 유포된다면 실제로 한국어와 같은 비 영어 언어에서도 감정분석을 자유로이 할 수 있는 날이 올 것 입니다. 또한, 본 연구가 감정분석 뿐만 아니라 온톨리지, 유의어 등 많은 노동력을 요구하는 언어자원 생산 문제를 해결하는데도 본보기가 될 것입니다.

서지기타정보

서지기타정보
청구기호 {MWST 13008
형태사항 v, 25 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍윤성
지도교수의 영문표기 : Sue-Bok Moon
지도교수의 한글표기 : 문수복
수록잡지명 : "Tower of Babel: A Crowdsourcing Game Building Sentiment Lexicons for Resource-scarce Languages". Proceedings of the 22nd international conference on World Wide Web companion, pp549-556(2013)
학위논문 학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공,
서지주기 References : p. 20-22
주제 sentiment analysis
gamification
crowdsourcing
Multilingual
opinion mining
game
lexicon
감정분석
게임화
집단지성
다국어
오피니언 마이닝
게임
렉시콘
QR CODE qr code