서지주요정보
Finding cracks in content moderation : delexicalized distant supervision for illicit drug jargon detection = 콘텐츠 조정을 위한 탈어휘 원격 지도 방식의 불법 약물 전문 용어 탐지
서명 / 저자 Finding cracks in content moderation : delexicalized distant supervision for illicit drug jargon detection = 콘텐츠 조정을 위한 탈어휘 원격 지도 방식의 불법 약물 전문 용어 탐지 / Minkyoo Song.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040763

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23056

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Sales and discussions of illicit drugs have become commonplace online, including on social media. Social media platforms hosting user-generated content must therefore moderate harmful drug content. However, this is a difficult task due to the vast amount of jargon used in drug discussions. Previous works on drug jargon detection were limited to extracting a list of terms. However, systems relying on a banlist of words have limitations. First, they are trivially evaded using word substitutions. Second, they are cannot distinguish whether a drug euphemism (e.g., pot, crack) is used as a drug jargon or not. An effective drug content moderation system must be trained to find drug jargon using contexts, rather than relying on a banlist. Since the language around drugs is difficult and constantly changing, manually annotated datasets for training on this task are not only expensive to create but also prone to becoming obsolete. We present JEDIS, a system that detects illicit drug jargon terms by learning on distantly supervised data. We manually annotate two datasets from two sources, Reddit and Silk Road Forums, to evaluate drug jargon detection. Our experiments show JEDIS outperforms state-of-the-art word-based baselines in drug jargon detection by 26.16 F1-score and by 9.27 F1-score on the two evaluation datasets. We also use JEDIS in extracting a list of drug jargon terms from the corpus, and find it is robust against pitfalls that other systems face.

불법 마약의 판매와 정보 교류는 소셜 미디어를 포함한 온라인에서 많이 일어나고 있다. 따라서, 사용자가 생성한 콘텐츠를 호스팅하는 소셜 미디어 플랫폼은 유해한 마약 콘텐츠를 조정해야 한다. 그러나 이것은 마약 논의에 사용되는 방대한 양의 전문 용어 때문에 어려운 작업이다. 마약 용어 탐지와 콘텐츠 조정에 대한 기존 연구는 용어 목록을 추출하는 것에 그쳤다. 하지만 이러한 금지 단어 목록에 의존하는 콘텐츠 조정 시스템에는 한계가 있다. 첫째로, 유저들은 대체 단어를 사용하여 조정 시스템을 쉽게 우회할 수 있다. 둘째로, 이러한 시스템은 마약 완곡어(예: pot, crack)가 마약 전문 용어로 사용되는지 여부를 구별할 수 없다. 따라서, 효과적인 마약 콘텐츠 조정 시스템은 밴 리스트에 의존하지 않고 맥락을 사용하여 마약 전문 용어를 찾도록 학습되어야 한다. 마약을 둘러싼 언어는 복잡하고 끊임없이 변화하기 때문에, 이 작업에 대한 모델 학습을 위해 수동으로 주석을 단 데이터 세트를 만드는 것은 비용이 많이 들 뿐만 아니라 구식이 되기 쉽다. 따라서, 본 논문에서는 원격 지도 방식으로 주석 없이 모델을 학습하여 불법 마약 전문 용어를 탐지하는 시스템인 JEDIS를 제시한다. 추가적으로, 본 논문에서는 마약 전문 용어 탐지의 성능을 평가하기 위해 레딧과 실크로드 포럼으로부터 각각 두 개의 수동 주석이 달린 평가 데이터 세트를 제시했다. 성능 실험은 JEDIS가 두 개의 평가 데이터 세트에서 마약 전문 용어 탐지에 대해 최첨단 단어 기반의 조정 시스템을 26.16 F1-Score 와 9.27 F1-Score 차이로 능가한다는 것을 보여준다. 또한, JEDIS는 마약 전문 용어 목록 추출 작업에 있어서도 뛰어난 성능을 보여줌과 동시에, 다른 시스템들이 직면하는 여러 문제점들에 대해 강력함을 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 23056
형태사항 iv, 34 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 송민규
지도교수의 영문표기 : Seungwon Shin
지도교수의 한글표기 : 신승원
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 27-31
주제 Automatic content moderation
Distant supervision
Jargon detection
Jargon extraction
자동 콘텐츠 조정
원격 지도 학습
특수 어휘 탐지 및 추출
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서