We propose a new query expansion method in the extended Boolean model that improves precision without degrading recall. For improving precision, our method promotes the ranks of documents that have more query terms since users typically prefer such documents. The proposed method consists of the following three steps: (1) expanding the query by adding new terms related to each term of the query, (2) further expanding the query by adding augmented terms, which are conjunctions of the terms, (3) assigning a weight on each term so that augmented terms have higher weights than the other terms. We conduct extensive experiments to show the effectiveness of the proposed method. The experimental results show that the proposed method improves precision by up to 102% for the TREC-6 data compared with the existing query expansion method.
본 논문은 확장 불리언 모델에서 리콜(recall)을 저하시키지 않으면서도 프리시젼(precision)을 높이는 새로운 질의확장 방법을 제안한다. 본 논문은 프리시젼을 높이기 위해, 사용자들이 질의한 용어를 더 많이 포함한 문서에 더 높은 랭크(rank)를 부여한다. 이는 사용자들이 자신이 질의한 용어 또는 이와 관련된 용어를 더 많이 포함한 문서를 더 선호하기 때문이다. 본 논문에서 제안한 방법은 다음의 세 단계로 이루어진다. 첫 번째 단계에서는 질의를 구성하는 각각의 용어 및 이 용어와 관련된 새로운 용어들을 구한다. 이때, 시소러스로부터 주어진 용어와 관련된 용어를 구한다. 두 번째 단계에서는 용어들의 논리곱으로 표현되는 추가용어(augmented terms)을 본래의 질의에 추가함으로써 질의를 확장한다. 세 번째 단계에서는 추가용어가 다른 용어들보다 더 높은 가중치를 가지도록 각 용어들에 가중치를 부여한다. 이때, 추가용어들 중에서 추가용어를 구성하는 용어의 개수가 더 많은 추가용어에 더 높은 가중치를 부여한다. 본 논문은 TREC-6 데이터에 대한 실험을 통하여, 본 논문에서 제안한 방법이 기존의 질의 확장 방법보다 프리시젼을 최대 102% 향상시킴을 보였다.