Relevance Feedback methods generally suffer from topic drift caused by word ambiguities and synonymous uses of words. As a way to alleviate the inherent problem, we propose a novel query phrase expansion approach utilizing semantic annotations in Wikipedia pages, trying to enrich queries with context disambiguating phrases. The idea was implemented for patent search where patents are classified into a hierarchy of categories, and the analyses of the experimental results showed not only the positive roles of phrases and words in retrieving additional relevant documents through query expansion but also their contributions to alleviating the query drift problem. More specifically, our query expansion method was compared against Relevance Model, a state-of-the-art, to show its superiority in terms of MAP on all levels of the classification hierarchy. Furthermore, we investigate the relationship between QE methods with respect to topic drift concept. More precisely, how QE methods behave causing topic drift. To investigate that, we propose a method of showing drifting topics, among other topic classes within queries, and their effect on the retrieval effectiveness. We further compare our work against Relevance Model to show the amount of drift generated by each expansion method.
Relevance Feedback은 일반적으로 단어의 모호성과 동의어의 사용 때문에 topic drift 문제가 발생한다. 이러한 문제점을 해결하기 위해, 우리는 질의어에 문맥의 모호성을 해소하는 문구를 위키피디아 문서의 의미적 주석(semantic annotation)을 활용하여 추가해 줌으로써 질의어의 품질을 높여주는 새로운 질의 문구 확장 방법을 제안한다.
제안하는 방법론을 통해 계층 구조의 분류체계로 구분되어 있는 특허 문서의 검색을 구현하였고, 실험 결과의 분석을 통해 질의어 확장에 쓰인 각 문구나 단어의 관련 문서 검색에서의 긍정적인 역할 뿐 아니라, topic drift 문제의 해결에 얼마나 기여하는지도 보여주었다. 구체적으로, 제안하는 질의어 확장 방법은 a-state-of-the-art인 Relevance Model과 비교했을 때, 모든 단계의 분류계층에서 월등한 MAP 값을 보였다. 또한, 우리는 질의어 확장 방법과 topic drift의 관계에 대해서 질의 확장 방법이 어떻게 topic drift를 야기시키는 지를 연구하였다. 이를 위해, 우리는 질의어에 대하여 여러개의 서로 다른 토픽 범주들로부터 topic drift 현상과 topic drift가 검색에 미치는 영향을 보여주는 방법을 제안하고, 제안하는 질의 확장 방법과 Relevance Model에 의해 발생하는 topic drift의 양을 비교하였다.