On-line analytical processing (OLAP) is usually used in the decision-making system and data warehouse. To process OLAP query a multi-way join frequently occurs. Invisible join and Flash join are the typical multi-way join algorithms. These algorithms use hard disk drive (HDD) as a storage medium. However, access speed of a solid state drive (SSD) is faster than HDD and price competitiveness of every year is getting better. A SSD has emerged as a storage medium for the next generation. SSD`s fast random read speeds due to the existing multi-way join algorithms need to be re-investigated.
In this paper, we use the SSD as a storage medium, to re-examine the performance of the join algorithms corresponding to the size of the data to be joined. To this end, First, HDD and SSD benchmarks will go through using various parameters. Second, we introduce the cost model of two multi-way join algorithms and show the forecast graphs. Finally, we show that forecast graphs and experimental results are similar to verify the proposed cost model and propose that invisible join is better than flash join depending on the size of the data.
의사 결정 시스템이나 데이터 웨어하우스에서는 온라인 분석처리가 주로 사용된다. 온라인 분석처리 환경에서는 일반적으로 하나의 사실 테이블과 다수의 차원 테이블로 구성된 스타 스키마를 사용해 데이터를 저장하고, 사실 테이블의 외래키는 차원 테이블들을 참조한다. 그러므로 통상적인 온라인 분석처리 환경의 질의들은 사실 테이블과 차원 테이블들 사이의 다중 조인을 포함하고 있다. 기존의 다중 조인 알고리즘은 저장매체로 HDD를 사용했고, 대표적인 다중 조인 알고리즘으로는 Invisible 조인과 Flash 조인이 있다. 그러나 HDD보다 빠른 접근성능의 SSD가 가격 경쟁력이 점점 나아지고 있어 차세대 저장매체로 떠오르고 있다. HDD와는 다른 SSD의 빠른 임의읽기 특성으로 인해 기존 다중 조인 알고리즘에 대한 재 고찰이 필요하다.
본 논문에서는 SSD를 저장매체로 사용한 온라인 분석처리 환경에서 조인하는 테이블 간의 크기 차이에 따른 두 다중 조인 알고리즘에 대한 성능을 재검토한다. 이를 위해 HDD와 SSD의 접근 성능을 비교하여 특성의 차이를 확인하고, 두 다중 조인의 비용 모델을 제시해 예측 그래프를 살펴본다. 그리고 실험 결과를 분석해 SSD에서 Invisible 조인이 Flash 조인보다 효율적인 상황을 제시한다.