Large-scale analysis of reference quality in heterogeneous Wikipedia datasets = 이종 위키피디아 데이터의 참고 문헌 품질에 대한 대규모 분석 연구
서명 / 저자 Large-scale analysis of reference quality in heterogeneous Wikipedia datasets = 이종 위키피디아 데이터의 참고 문헌 품질에 대한 대규모 분석 연구 / Aitolkyn Baigutanova.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

MCS 24007

휴대폰 전송







This study investigates the reliability of Wikipedia as a global encyclopedia by analyzing its references and assessing cross-lingual patterns of reference quality. The research introduces the concepts of reference need (RN) and reference risk (RR), measuring the percentage of sentences missing citations and the proportion of non-authoritative references, respectively. Calculating the RN score reveals a 20% decline over the past decade, accompanied by efforts to maintain the RR score below 1%. To enhance reference quality, the study proposes the collaborative editing of articles by pairing novice and experienced editors, demonstrating a lasting advantage in identifying unreliable sources. Additionally, the research examines over 5 million Wikipedia articles, revealing cross-lingual discrepancies in the perennial sources list and the persistence of untrustworthy sources across different language editions. The case study on Chinese, Russian, and Swedish Wikipedias highlights cultural variations in reference reliability, posing challenges for coordinating global knowledge on source credibility. As Wikipedia serves as a benchmark for various web applications, these findings and recommendations hold broad implications for the integrity of online information. The study also discusses the potential adoption of Wiki-style user collaboration to eliminate unreliable content in other web services.

이 연구는 위키백과의 참고 문헌을 분석하고 언어 간 참고 문헌 품질 패턴을 평가하여 글로벌 백과사전으로서의 위키백과의 신뢰성을 조사합니다. 연구는 인용이 누락된 문장의 비율을 측정하는 참고문헌 필요 (RN, reference need) 과 신뢰할 수 없는 참고문헌의 비율을 측정하는 참고문헌 위험 (RR, reference risk ) 개념을 도입합니다. 각 점수를 계산하면, RN은 지난 10년 동안 20% 감소했으며, RR 점수의 경우 1% 미만으로 유지하기 위한 노력이 동반되었습니다. 참고문헌의 품질을 향상시키기 위해 이 연구는 초보 편집자와 경험이 많은 편집자를 짝지어 문서를 협업 편집하는 방식을 제안하며, 이는 신뢰할 수 없는 출처를 식별하는 데 지속적인 이점을 제공합니다. 또한 이 연구에서는 500만 개가 넘는 위키백과 문서를 조사하여 다국어 간 perennial sources list 의 언어 간 불일치와 다양한 언어 버전 간 에서 신뢰할 수 없는 출처의 지속성을 밝혀냈습니다. 중국어, 러시아어 및 스웨덴어 위키백과에 대한 사례 연구는 참고문헌의 신뢰성에서 문화적 차이를 강조하며, 글로벌 지식의 신뢰성 조정에 대한 어려움을 제기합니다. 위키백과가 다양한 웹 응용프로그램에 대한 기준으로 작용하므로, 이러한 연구 결과와 권장 사항은 온라인 정보의 무결성에 폭넓은 함의를 가지고 있습니다. 또한 연구는 신뢰할 수 없는 콘텐츠를 제거하기 위해 Wiki 방식인 사용자 협업 기반의 문서 편집 방식을 다른 웹 서비스로의 잠재적 채택의 가능성에 대해 논의합니다.


청구기호 {MCS 24007
형태사항 iv, 27 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 바이구타노바아이토큰
지도교수의 영문표기 : Meeyoung Cha
지도교수의 한글표기 : 차미영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 23-25
주제 Wikipedia
Information quality
Fake news
Collaborative editing
Multilingual assessment
Data analysis
정보 품질
가짜 뉴스
협업 편집
다국어 평가
데이터 분석
자연어 처리 (NLP)





이 주제의 인기대출도서