As the amount of information increases rapidly, the importance of the parallel DB-IR system─a parallel information retrieval system integrated with a database system─is becoming more pronounced since the parallel DB-IR system supports an efficient search over a large volume of structured and unstructured data. In the parallel DB-IR system, documents are updated using SQL-data change statements. However, SQL-based updating methods for the parallel DB-IR system have not been fully discussed in the literature. Specifically, the consistency problem in the parallel DB-IR system has not been discussed.
In this thesis, we design and implement SQL-data change statements for ODYSSUES/ Parallel-OOSQL, a parallel DB-IR system that has been under development at KAIST. We formally define the consistency in the parallel DB-IR system and propose a novel processing method for SQL-data change statements that preserves the consistency. The proposed method exploits the 2-Phase Update technique that globally finds documents to be updated, and then, updates the documents. We also prove the correctness of the proposed method. The experimental results show that the proposed method preserves consistency with negligible overhead, which is less than 0.03\% of the total processing time.
정보의 양이 급속도로 증가함에 따라 병렬 정보 검색 시스템에 데이터베이스 시스템을 통합한 병렬 DB-IR 시스템의 중요성이 부각되고 있다. 병렬 DB-IR 시스템을 이용하면 대용량의 정형 및 비정형 데이터에 대해 효율적인 정보 검색을 수행할 수 있기 때문이다. 병렬 DB-IR 시스템에서는 SQL-data change statement를 이용하여 문서를 갱신한다. 하지만 병렬 DB-IR 시스템을 위한 SQL 기반의 갱신 방법에 대한 연구는 거의 논의된 바가 없으며, 특히, 병렬 DB-IR 시스템에서의 consistency 문제는 논의된 바가 없다. 본 논문에서는 한국과학기술원에서 개발한 병렬 DB-IR 시스템인 오디세우스/Parallel-OOSQL을 위한 SQL-data change statement의 처리 방법을 제안한다. 본 논문에서는 병렬 DB-IR 시스템에서의 consistency를 정형적으로 정의한다. 그리고, consistency를 유지하면서 SQL-data change statement를 처리하는 효율적인 방법을 제안한다. 제안한 방법에서는 갱신할 대상 문서 집합을 먼저 검색한 후, 검색한 문서 집합에 대하여 갱신하는 2단계 갱신 기법을 이용한다. 그리고 제안한 방법이 consistency를 보장함을 증명한다. 실험을 통해 제안한 방법에서 consistency를 유지하기 위한 추가 비용이 전체 처리 시간의 0.03\% 미만으로 무시할 수 있는 수준임을 보인다.