As the amount of information represented in the electronic format in-creases rapidly with the growth of the Internet, parallel information retrieval - searching documents in parallel - is playing a more important role in sup-porting fast retrieval from a large volume of documents.
To implement a parallel information retrieval system, we need to partition the inverted index and to search through the partitioned index in parallel. There are two methods for partitioning the inverted index : 1) document identifier based partitioning and 2) keyword identifier based partitioning. However each method alone has some drawbacks.
In this thesis, we design and implement a parallel information retrieval system using the ODYSSEUS Database Management System (DBMS) tightly coupled with information retrieval capability, First, we analyze conventional inverted index partitioning methods and propose a hybrid method that compensates for the drawback of each method. Second, we propose a method for partitioning large posting lists, which degrades performance when dealing with a large volume of documents. Last, we conduct extensive experiments to show the effectiveness of the proposed system. We use 2,000,000 web pages as the sample database. The experimental results show that query processing time is reduced approximately in proportion to the number of blocks in the partition of the inverted index. The results also show that system has good scalability.
인터넷의 성장과 함께 전자적인 형태로 표현되는 정보의 양이 급격하게 증가함에 따라,문서를 병렬적으로 검색하는 병렬 정보 검색이 많은 양의 문서에 대한 빠른 검색을 지원하는 것에 있어 더욱 중요한 역할을 하고 있다.병렬 정보 검색 시스템을 구현하기 위해서는 역 색인을 분할하고 분할된 역색인을 통하여 병렬적으로 검색하는 것이 필요하다.
역 색인을 분할하는 방법으로는 다음과 같은 두가지 방법이 있다 :
1) 문서 식별자를 기반으로하는 분할 방법 과 2) 키워드 식별자를 기반으로하는 분할 방법. 그러나 각 분할 방법은 결점들을 가지고 있다. 본 논문에서는 정보 검색 기능을 포함하고 있는 데이터베이스 관리 시스템인 오디세우스를 사용하여 병렬 정보 검색 시스템을 설계하고 구현한다.
첫째로, 기존의 역 색인 분할 방법을 분석하고,각 분할 방법의 결점들을 보충할 수 있는 혼합 분할 방법을 제안한다.둘째로, 많은 양의 문서에 대해 성능 저하의 원인이 되는 대형 포스팅을 분할 하는 방법을 제안한다.
마지막으로 제안된 시스템의 유용성을 보이기 위해 실험을 수행한다.예제 데이터베이스로서는 2,000,000건의 웹 페이지를 사용한다. 실험 결과, 질의 처리 시간이 역 색인 분할의 블록의 개수에 근사하게 비례하여 줄어듦을 보인다. 시스템이 좋은 scalability를 가짐을 보인다.