Sales and discussions of illicit drugs have become commonplace online, including on social media. Social media platforms hosting user-generated content must therefore moderate harmful drug content. However, this is a difficult task due to the vast amount of jargon used in drug discussions. Previous works on drug jargon detection were limited to extracting a list of terms. However, systems relying on a banlist of words have limitations. First, they are trivially evaded using word substitutions. Second, they are cannot distinguish whether a drug euphemism (e.g., pot, crack) is used as a drug jargon or not. An effective drug content moderation system must be trained to find drug jargon using contexts, rather than relying on a banlist. Since the language around drugs is difficult and constantly changing, manually annotated datasets for training on this task are not only expensive to create but also prone to becoming obsolete. We present JEDIS, a system that detects illicit drug jargon terms by learning on distantly supervised data. We manually annotate two datasets from two sources, Reddit and Silk Road Forums, to evaluate drug jargon detection. Our experiments show JEDIS outperforms state-of-the-art word-based baselines in drug jargon detection by 26.16 F1-score and by 9.27 F1-score on the two evaluation datasets. We also use JEDIS in extracting a list of drug jargon terms from the corpus, and find it is robust against pitfalls that other systems face.
불법 마약의 판매와 정보 교류는 소셜 미디어를 포함한 온라인에서 많이 일어나고 있다. 따라서, 사용자가 생성한 콘텐츠를 호스팅하는 소셜 미디어 플랫폼은 유해한 마약 콘텐츠를 조정해야 한다. 그러나 이것은 마약 논의에 사용되는 방대한 양의 전문 용어 때문에 어려운 작업이다. 마약 용어 탐지와 콘텐츠 조정에 대한 기존 연구는 용어 목록을 추출하는 것에 그쳤다. 하지만 이러한 금지 단어 목록에 의존하는 콘텐츠 조정 시스템에는 한계가 있다. 첫째로, 유저들은 대체 단어를 사용하여 조정 시스템을 쉽게 우회할 수 있다. 둘째로, 이러한 시스템은 마약 완곡어(예: pot, crack)가 마약 전문 용어로 사용되는지 여부를 구별할 수 없다. 따라서, 효과적인 마약 콘텐츠 조정 시스템은 밴 리스트에 의존하지 않고 맥락을 사용하여 마약 전문 용어를 찾도록 학습되어야 한다. 마약을 둘러싼 언어는 복잡하고 끊임없이 변화하기 때문에, 이 작업에 대한 모델 학습을 위해 수동으로 주석을 단 데이터 세트를 만드는 것은 비용이 많이 들 뿐만 아니라 구식이 되기 쉽다. 따라서, 본 논문에서는 원격 지도 방식으로 주석 없이 모델을 학습하여 불법 마약 전문 용어를 탐지하는 시스템인 JEDIS를 제시한다. 추가적으로, 본 논문에서는 마약 전문 용어 탐지의 성능을 평가하기 위해 레딧과 실크로드 포럼으로부터 각각 두 개의 수동 주석이 달린 평가 데이터 세트를 제시했다. 성능 실험은 JEDIS가 두 개의 평가 데이터 세트에서 마약 전문 용어 탐지에 대해 최첨단 단어 기반의 조정 시스템을 26.16 F1-Score 와 9.27 F1-Score 차이로 능가한다는 것을 보여준다. 또한, JEDIS는 마약 전문 용어 목록 추출 작업에 있어서도 뛰어난 성능을 보여줌과 동시에, 다른 시스템들이 직면하는 여러 문제점들에 대해 강력함을 보여준다.