한국과학기술원 도서관

서지주요정보
Measuring web page similarity using social bookmarks = 태그를 이용한 웹 페이지간의 유사도 측정 방법
서명 / 저자	Measuring web page similarity using social bookmarks = 태그를 이용한 웹 페이지간의 유사도 측정 방법 / Sang-Wook Kang.
발행사항	[대전 : 한국과학기술원, 2009].
Online Access	원문보기 원문인쇄

소장정보

등록번호

8020120

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 09005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Social bookmarking is one of the most interesting trends to emerge in the current web environment. In a social bookmarking system, users annotate a web page with tags, which describe the contents of the page. Numerous studies have been done using this information, mostly on enhancing the quality of web search. In this paper, we use this information to measure the semantic similarity between two web pages. Since web pages consist of various types of multimedia data, it is quite difficult to compare the semantics of two web pages by comparing the actual data contained in the pages. With the help of social bookmarks, this comparison can be performed very effectively. In this paper, we propose a new similarity measure between web pages, called Web Page Similarity Based on Entire Tags (WSET), based on social bookmarks. The experimental results show that the proposed measure yields more satisfactory results than the previous ones.

웹 페이지는 텍스트, 이미지, 음성, 영상, 하이퍼링크 등의 멀티미디어 데이터로 구성되어있다. 이 정보들을 바탕으로 웹에 대한 많은 연구가 이루어 졌는데, 하이퍼링크 정보를 이용한 여러 웹 검색을 향상시킨 많은 연구가 있고, 웹 페이지에 있는 텍스트 정보를 이용한 개인화 검색(personalized search)에 관련된 연구가 진행 중이다. 웹 페이지간의 유사도(similarity)는 어떤 두 웹 페이지가 주어졌을 때, 두 웹 페이지가 같은 얼마만큼 유사한 주제를 다루고 있는가에 대한 척도이다. 현재 이와 관련된 많은 연구가 진행되고 있지는 않지만 웹 페이지간의 유사도 측정은 방문하는 웹 페이지를 자동으로 분류 또는 웹 사용자가 기준으로 정한 웹 페이지와 유사한 웹 페이지만을 수집하는 등의 기능으로 추후에 사용될 수 있다. 웹 페이지의 유사도를 측정하는 방법은 위의 연구들처럼 하이퍼링크 또는 웹 페이지의 텍스트 정보를 이용할 수 있지만 한계점이 존재한다. 웹 페이지의 텍스트를 정보를 기반으로 두 웹 페이지를 비교할 때, 만약 웹 페이지에 존재하는 이미지나 영상이 더 중요한 정보를 가지고 있다면 유사도의 값은 정확하지 않을 것이다. 또한, 비교할 두 페이지가 하이퍼링크로 이어져 있지 않다면 하이퍼링크로 두 페이지를 비교하는 것은 불가능하다. 본 논문은 위의 문제점을 해결하고자 웹 페이지 안에 포함되어 있는 정보가 아닌 웹 페이지의 바깥에서 웹 페이지와 관련된 정보를 이용할 것이다. 현재 웹에서 매우 빠르게 발전하고 있는 태그(social bookmark) 정보를 이용할 것이다. 태그는 웹 사용자들이 특정 웹 페이지를 자신만의 단어로 재정의한 것이다. 수많은 사용자들이 많은 웹 페이지에 태그를 달고 있으며 이렇게 축적된 정보를 이용하면 웹 페이지에 대하여 보다 정확한 정의를 얻을 수 있으며 유사도를 보다 정확하게 측정할 수 있다. 기존 연구는 이렇게 축적된 태그 정보를 태그간의 1:1 비교를 통하여 유사도를 측정하였다. 하지만 태그는 사람들이 사용하는 언어이기 때문에 같은 단어일지라도 다른 의미로 사용되었을 수도 있다. 즉, 웹 페이지에 정의되어있는 태그가 다른 어떤 태그와 함께 사용되었는지를 판단하여 유사도를 측정하는 것이 태그간의 1:1 비교를 통하여 측정하는 것보다 훨씬 정확하다. 본 논문에서는 이런 태그 집합을 여러 개의 유사한 뜻을 가지는 그룹으로 나누기 위해 Separable Mixture Model(SMM)을 이용하였다. SMM은 동시에 발생하는 2개의 데이터가 있을 때, 이를 유사한 개념을 가지는 그룹으로 나누어주는 모델로, 각 데이터가 각 그룹의 속할 조건부 확률과 각 그룹이 선택될 확률이 결과값으로 나오게 된다. 여기서는 하나의 웹 페이지와 하나의 태그가 동시에 발생하는 데이터로 볼 수 있으므로, 이 정보를 SMM에 적용시키면, 각 유사한 뜻을 가지는 그룹이 선택될 확률과, 각 태그가 각 그룹에 속할 조건부 확률을 얻을 수 있다. 최종적으로 두 웹 페이간의 유사도를 측정하기 위해, 두 웹 페이지가 가지고 있는 모든 태그들을 가져온 후, 모든 태그가 같은 그룹에 속할 확률을 구하면 이 것이 두 웹 페이지 간의 유사도가 된다. 본 논문에서는 최종 결과 유사도 값을 WSET (Web page Similarity based on Entire Tags)라 정의하였고, WSET 값은 유사한 페이지와 유사하지 않은 페이지들이 주어졌을 때 기존 연구의 결과 값과 비슷한 값을 보여주었다. 하지만 여러 의미를 가질 수 있는 다의어가 태그로 사용되었을 경우, 기존 연구에 의해 유사하다고 판명된 페이지를 유사하지 않은 페이지로 올바르게 분류하였다. 또한 하이퍼링크 분석에 따른 유사한 페이지들도 WSET에 따라 유사한 페이지로 판명되었다. 다만, WSET에 따른 유사한 페이지는 하이퍼링크 분석에 의해서는 검색되지 않는 점도 보였다. 웹 페이지의 개발자의 지식에 기반한 하이퍼링크 분석에 따른 유사 페이지 검색보다 많은 사용자들의 지식에 기반한 유사 페이지 판별이 더 정확하고 많은 결과를 가져다 주었다.

서지기타정보

서지기타정보
청구기호	{MCS 09005
형태사항	iv, 29 p. : 삽화 ; 26 cm
언어	영어
일반주기	저자명의 영문표기 : 강상욱 지도교수의 영문표기 : Myoung-Ho Kim 지도교수의 한글표기 : 김명호
학위논문	학위논문(석사) - 한국과학기술원 : 전산학전공,
서지주기	References : p. 28-29

QR CODE

책소개

전체보기

나의 도서관정보

메뉴

소장정보

리뷰정보

초록정보

서지기타정보

책소개

목차

이 주제의 인기대출도서