People often use the internet in order to express their opinions for specific issues or to get some information. Flames among online messages disrupt those uses. In this paper, I propose a heuristic method which detects flames from online messages automatically using an n-gram language model. We focus on flaming in Korean web sites, but our system can be applied to any other languages. I propose a method to extract features based on n-grams and score each feature by a heuristic method. The proposed algorithm outperforms a wordbased algorithm in terms of the accuracy and the recall rates, because the algorithm presented in this paper can solve the two problems: variants of words and abbreviations of blanks. In the evaluation, I compare the proposed method with the word-based algorithm and the algorithm based on an n-gram language model which use SVM learning machine. While the proposed algorithm does not need any stemming and tagging tasks, it can detect more accurately by 10% than the algorithm based on words.
인터넷 게시판은 공론의 장으로서 여론 형성의 기능을 할 뿐만 아니라, 생활의 지식, 기술적 정보 제공의 기능을 담당하기도 한다. 게시판에서 비방 을 목적으로 모욕적인 어투나 욕설 등을 이용하여 작성된 글들은 인터넷이 제 기능을 다하지 못하게 되는 장애 요소이다.
본 논문에서는 이러한 비방 글을 자동으로 판별하는 알고리즘을 제안한 다. 사람들이 비방 글이라고 판단하는 것은 주관적인 가치관에 의존하기 때 문에 실험 참여자에 따라서 차이가 발생할 수 있지만, 16 명의 실험 참가자들 의 결과 분석을 통해 욕설과 비방 글의 높은 상관 관계를 확인 할 수 있었다. 이 결과는 욕설을 기반으로 한 금칙어 기준의 필터링 방법으로 비방 글 을 분류하는 방법이 합리적일 수 있음을 알려준다. 하지만, 이러한 단어 기 반의 분석 방법은, 단어가 독자적으로 의미를 내포하고 있으며 중요한 자질 이라는 사실에도 불구하고, 인터넷에서 작성되는 글들이 띄어쓰기 오류와 단 어의 형태적 변형이라는 두 가지 문제에 대해 효과적인 해결책을 제시하지 못한다. 본 논문에서 제시된 알고리즘은 N-gram 을 사용하여 자질을 추출하고, 실험 결과를 통해 만들어진 휴리스틱 함수를 통해 각 자질들에 대해 가 중치를 부여한 뒤, 계산된 값을 합산하여 비방 여부를 결정한다
N-gram 을 기반으로 한 본 논문의 알고리즘은 정확도와 자질들의 적용 범위에 있어서 단어 기반 알고리즘 보다 향상된 성능을 보여준다. 본 논문의 알고리즘의 정확도는 평균적으로 10% 정도 향상된 결과를 보였으며 자질들 의 적용 범위는 단어 기반 알고리즘의 경우 평균 54%인데 반해, unigram 의 경우 97%, bigram 의 경우 57%, trigram 의 경우 25%였다. N 의 크기가 높아질 수록 정확도에서는 향상되지만, 연산량과 소요 시간은 기하 급수적으로 증가 한다. 효율적인 적용을 위해서는 적절한 n 값의 선택, 확보된 자질 중 큰 의 미가 없는 자질들의 경계를 파악하는 문제, 연관 관계를 이용해 자동으로 자 질을 확장하는 알고리즘들이 필요하다.