A data warehouse is an integrated and summarized collection of data in support of decision making process. In general, data warehouses store summarized information as materialized views about a large amount of data from several data sources. Materialized views need to be updated when source data change. During a view update, the use of data warehouse is often restricted or queries experience significant performance degradation. So it is critical to update the warehouse views very efficiently.
There has been much work in maintaining views incrementally. However, there has been little work in the view update maintenance when the view is defined by multiple data sources whose changes have to be reflected in the view. In this thesis, we present a view update strategy that can handle this case efficiently. We also show the performance advantage of our method over other existing methods through experiments using TPC-D data and queries.
데이터 웨어하우스는 의사 결정에 필요한 정보의 제공을 위해 데이터를 통합 요약하여 저장하는 시스템이다. 대부분의 데이터 웨어하우스에서는 대량의 데이터에 대한 요약 정보를 데어터 웨어하우스 내부에 형성(materialized) 뷰의 형태로 저장한다. 이 때 뷰가 정의된 데이터가 변화하면 뷰는 이를 반영하기 위해 갱신되어야 한다. 뷰에 대한 갱신 작업이 일어나는 동안은 보통 데이터 웨어하우스에 대한 사용이 제한되거나 질의 처리의 속도가 저하될 수 있다. 따라서 이러한 갱신 작업을 효율적으로 수행하는 것은 매우 중요한 문제가 된다. 이미 뷰의 효율적인 갱신 방법에 대해서는 많은 연구가 이루어져 왔다. 그러나 뷰가 여러 개의 데이터 소스에 의해 정의된 경우, 둘 이상의 데이터 소스에 대한 변화를 효율적으로 뷰에 반영하는 방법에 대해서는 아직 많은 연구가 이루어지지 않았다. 본 논문에서는 여러 개의 데이터 소스에 의해 정의된 형성 뷰에서 둘 이상의 데이터 소스에 변화가 일어난 경우 뷰를 효율적으로 갱신하는 방법에 대해 논의한다. 그리고 TPC-D 데이터를 사용한 실험을 통하여 본 논문에서 제안한 방법이 기존의 방법들보다 성능이 우수하다는 것을 보인다.