한국과학기술원 도서관

서지주요정보
Study on the N-gram measure based flame detection in Korean online messages = N-gram을 이용한 인터넷 게시판에서의 상호 비방 척도 알고리즘에 대한 연구
서명 / 저자	Study on the N-gram measure based flame detection in Korean online messages = N-gram을 이용한 인터넷 게시판에서의 상호 비방 척도 알고리즘에 대한 연구 / Se-Wook Cheon.
발행사항	[대전 : 한국정보통신대학교, 2008].
Online Access	원문보기 원문인쇄

소장정보

등록번호

DM0001030

소장위치/청구기호

학술문화관(문화관) 보존서고

ICU/MS08-75 2008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

People often use the internet in order to express their opinions for specific issues or to get some information. Flames among online messages disrupt those uses. In this paper, I propose a heuristic method which detects flames from online messages automatically using an n-gram language model. We focus on flaming in Korean web sites, but our system can be applied to any other languages. I propose a method to extract features based on n-grams and score each feature by a heuristic method. The proposed algorithm outperforms a wordbased algorithm in terms of the accuracy and the recall rates, because the algorithm presented in this paper can solve the two problems: variants of words and abbreviations of blanks. In the evaluation, I compare the proposed method with the word-based algorithm and the algorithm based on an n-gram language model which use SVM learning machine. While the proposed algorithm does not need any stemming and tagging tasks, it can detect more accurately by 10% than the algorithm based on words.

인터넷 게시판은 공론의 장으로서 여론 형성의 기능을 할 뿐만 아니라, 생활의 지식, 기술적 정보 제공의 기능을 담당하기도 한다. 게시판에서 비방 을 목적으로 모욕적인 어투나 욕설 등을 이용하여 작성된 글들은 인터넷이 제 기능을 다하지 못하게 되는 장애 요소이다. 본 논문에서는 이러한 비방 글을 자동으로 판별하는 알고리즘을 제안한 다. 사람들이 비방 글이라고 판단하는 것은 주관적인 가치관에 의존하기 때 문에 실험 참여자에 따라서 차이가 발생할 수 있지만, 16 명의 실험 참가자들 의 결과 분석을 통해 욕설과 비방 글의 높은 상관 관계를 확인 할 수 있었다. 이 결과는 욕설을 기반으로 한 금칙어 기준의 필터링 방법으로 비방 글 을 분류하는 방법이 합리적일 수 있음을 알려준다. 하지만, 이러한 단어 기 반의 분석 방법은, 단어가 독자적으로 의미를 내포하고 있으며 중요한 자질 이라는 사실에도 불구하고, 인터넷에서 작성되는 글들이 띄어쓰기 오류와 단 어의 형태적 변형이라는 두 가지 문제에 대해 효과적인 해결책을 제시하지 못한다. 본 논문에서 제시된 알고리즘은 N-gram 을 사용하여 자질을 추출하고, 실험 결과를 통해 만들어진 휴리스틱 함수를 통해 각 자질들에 대해 가 중치를 부여한 뒤, 계산된 값을 합산하여 비방 여부를 결정한다 N-gram 을 기반으로 한 본 논문의 알고리즘은 정확도와 자질들의 적용 범위에 있어서 단어 기반 알고리즘 보다 향상된 성능을 보여준다. 본 논문의 알고리즘의 정확도는 평균적으로 10% 정도 향상된 결과를 보였으며 자질들 의 적용 범위는 단어 기반 알고리즘의 경우 평균 54%인데 반해, unigram 의 경우 97%, bigram 의 경우 57%, trigram 의 경우 25%였다. N 의 크기가 높아질 수록 정확도에서는 향상되지만, 연산량과 소요 시간은 기하 급수적으로 증가 한다. 효율적인 적용을 위해서는 적절한 n 값의 선택, 확보된 자질 중 큰 의 미가 없는 자질들의 경계를 파악하는 문제, 연관 관계를 이용해 자동으로 자 질을 확장하는 알고리즘들이 필요하다.

서지기타정보

서지기타정보
청구기호	{ICU/MS08-75 2008
형태사항	iv, 45 p. : 삽화 ; 26 cm
언어	영어
일반주기	저자명의 한글표기 : 천세욱 지도교수의 영문표기 : Min-Soo Hahn 지도교수의 한글표기 : 한민수
학위논문	학위논문(석사) - 한국정보통신대학교 : 공학부,
서지주기	References : p. 41-44

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서