서지주요정보
Uncovering the linguistic characteristics and modeling the language of the dark web = 다크웹의 언어적 특성 관찰 및 언어모델링
서명 / 저자 Uncovering the linguistic characteristics and modeling the language of the dark web = 다크웹의 언어적 특성 관찰 및 언어모델링 / Youngjin Jin.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039881

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22150

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The hidden nature and the limited accessibility of the Dark Web, combined with the lack of public datasets in this domain, make it difficult to study its inherent characteristics such as linguistic properties. Previous works on text classification of Dark Web domain have suggested that the use of deep neural models may be ineffective, potentially due to the linguistic differences between the Dark and Surface Webs. However, not much work has been done to uncover the linguistic characteristics of the Dark Web. In addition, some of the activities that are prevalent in the Dark Web have shown to be malicious in nature. Therefore, it is imperative that a thorough investigation of the activities in the Dark Web is conducted. To this end, this work introduces CoDA, a publicly available Dark Web dataset consisting of 10,000 web documents tailored towards text-based Dark Web analysis. By leveraging CoDA, we conduct a thorough linguistic analysis of the Dark Web and examine the textual differences between the Dark Web and the Surface Web. We also assess the performance of various methods of Dark Web page classification. We then compare CoDA with an existing public Dark Web dataset and evaluate their suitability for various use cases. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. By confirming the apparent differences in the language of the Dark Web and the Surface Web and collecting more data, we create DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model may offer.

다크 웹의 익명성 특성과 제한된 접근성, 그리고 다크 웹 데이터셋의 부재로 인하여 이 도메인의 언어 속성과 같은 특성을 연구하기 어렵다. 이전 연구들은 다크 웹과 표면 웹 사이의 언어 차이로 인해 심층 신경 모델을 사용하는 것이 효과적이지 않을 수 있음을 시사했다. 그러나 다크웹의 언어적 특성을 밝혀내기 위한 연구 또한 많지 않다. 또한, 다크 웹 상에 존재하는 일부 활동들은 악의적인 경우가 많다. 이러하여 다크 웹에서의 활동에 대한 철저한 조사가 필요하다고 볼 수 있다. 이를 위해 본 연구는 텍스트 기반 다크 웹 분석에 맞게 조정된 10,000개의 웹 문서로 구성된 공개적으로 사용 가능한 다크 웹 데이터 셋인 CoDA를 소개하고, CoDA를 활용하여 다크 웹에 대한 언어 분석을 수행하고 다크 웹과 표층 웹 간의 텍스트 차이점를 조사하며, 다양한 다크 웹 페이지 분류 작업 성능을 평가한다. 그리고 CoDA를 기존 공개 다크 웹 데이터 세트와 비교하고 다양한 사용 사례에 대한 적합성을 확인한다. 다크 웹에 대한 연구는 일반적으로 텍스트 분석을 요구하기 때문에 다크 웹에 특화된 언어 모델은 귀중한 정보를 제공할 수 있다. 따라서, 다크 웹과 표층 웹의 언어에서 명백한 차이를 확인했으므로 추가적인 데이터를 수집함으로써 다크 웹에 대해 사전 훈련된 언어 모델인 DarkBERT를 생성한다. 다크 웹 도메인의 언어적 특성을 구축하는 데 해로울 수 있는 다크 웹의 어휘적 및 구조적 차이와 다양성을 극복하기 위해 훈련용 텍스트 데이터를 취합하기 위해 적용한 단계를 설명한다. 마지막으로, DarkBERT가 다크 웹 도메인 상 연구에서 제공하는 이점을 검증하기 위해 널리 사용되는 타 언어 모델과 성능을 비교한다.

서지기타정보

서지기타정보
청구기호 {MEE 22150
형태사항 v, 48 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 진영진
지도교수의 영문표기 : Seungwon Shin
지도교수의 한글표기 : 신승원
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 41-46
주제 dark web
natural language processing
machine learning
information retrieval
language modeling
linguistic analysis
다크 웹
자연 언어 처리
기계 학습
정보 검색
언어 모델링
언어 분석
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서