서지주요정보
Improving retrieval effectiveness: Query expansion and document feature extraction using Wikipedia = 위키피디아 기반 질의 확장 및 문서 특징 추출 연구
서명 / 저자 Improving retrieval effectiveness: Query expansion and document feature extraction using Wikipedia = 위키피디아 기반 질의 확장 및 문서 특징 추출 연구 / Su-Youn Lee.
발행사항 [대전 : 한국과학기술원, 2011].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8023185

소장위치/청구기호

학술문화관(문화관) 보존서고

MKSE 11008

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The present research introduces WIKIF (Wikipedia Frequency) and SAF (See Also Frequency), new and effective semantic IR (information retrieval) methods that use Wikipedia. WIKIF represents how much informative a document is. Using this method, the hub score of the doc-ument is measured using conceptual links to Wikipedia. SAF utilizes the “See Also” section in Wikipedia to support query expansion. Empirically we have found that combining WIKIF and SAF produces better performance than either method in isolation. In other words, the two methods are complementary to each other. The superiority of WIKIF and SAF methods are demonstrated in an experiment using TREC WT10G data set. With WIKIF and SAF, IR performance with regard to precision and recall are noticeably enhanced. The experiment shows that both methods produce higher precision than Lucene baseline; WIKIF 26.2% higher and SAF 15.3% higher. Furthermore, precision enhancement is increased to 44.9% when both SAF and WIKIF are combined. We conclude that the proposed methods, in particular combining WIKIF and SAF, are effective in enhancing IR performance and the “See Also” section in Wikipedia is a useful source for query expansion.

오늘날 많은 사용자들은 웹을 하나의 검색도구로써 사용한다. 웹은 매우 가파르게 그 규모가 확장되고 있으며 또한 그 구성의 대부분이 구조화되지 않은 문서들이어서 오늘날 정보검색에 있어서 큰 도전거리들을 제공하여주고 있다. 본 논문에서는 일반적인 정보 검색의 문제들을 위키피디아를 통하여 해결하는 두가지 메소드, WIKIF와 SAF를 제안한다. 최근 링크 구조 분석을 통하여 새로운 문서의 특징을 추출하려는 일련의 연구들이 수행되었으며 HITS와 PageRank가 그 대표격이라 할수있다. 본 논문에서는 HITS알고리즘을 변형하여 위키피다의 엔트리를 이용하는 방식으로 변형한 WIKIF를 제한하며 실험을 통하여 우리가 제안하는 메소드의 놀라운 성능향상 효과를 보인다. 또한, 본 논문에서는 위키피디아의 “See Also” 정보를 이용하여 쿼리 확장 (Query Expansion)에 이용하는 SAF 메소드에 방법을 기술한다. 위키피디아의 “See Also” 링크 정보는 비교적 최근에 위키피디아 아티클에 추가되어 아직까지 그 유용성을 정확히 기술한 논문은 찾아보기 힘들다. 이에 본 논문에서는 이러한 정보가 쿼리 확장에 유용한지를 실험해본다. 우리가 제안하는 WIKIF와 SAF 메소드는 성능이 우수하며 두 메소드를 함께 사용할 경우 선형적으로 그 성능이 상승하는 효과를 가져오기 때문에 매우 유용한 알고리즘이라 할수 있다. 추가적으로 SAF 메소드의 경우는 일반적으로 쿼리 확장이 Recall 성능은 향상시키되 Precision 성능이 저하되는 단점을 가진데 반하여 우리가 제안하는 SAF 메소드의 경우 Precision과 Recall을 모두 향상시키는 결과를 가져온다. 제안하는 기법을 평가하기 위해 우리는 MAP, MRR, Recall을 평가척도로 사용하였으며 신뢰할 수 있는 데이터를 사용하기 위해 TREC WT10G의 문서집합과 질의어(451-500) 집합을 사용하고 Lu-cene을 비교집합으로 사용하였다. 실험결과 정확도 측면에서 루씬 비교집합에 비하여 WIKIF는 26.2%, SAF는 16.7%, WIKIF와 SAF를 모두 사용한 경우 44.9%의 매우 성능향상 효과를 보였다.

서지기타정보

서지기타정보
청구기호 {MKSE 11008
형태사항 v, 56 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이수연
지도교수의 영문표기 : Mun Y. Yi
지도교수의 한글표기 : 이문용
Including Appendix
학위논문 학위논문(석사) - 한국과학기술원 : 지식서비스공학과,
서지주기 References : p. 31-34
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서