서지주요정보
(An) efficient approach to improve the performance of concurrent read streams in distributed file systems with various running environments = 다양한 실행 환경에서 분산 파일 시스템의 다중 읽기 스트림에 대한 효과적인 성능 향상 기법
서명 / 저자 (An) efficient approach to improve the performance of concurrent read streams in distributed file systems with various running environments = 다양한 실행 환경에서 분산 파일 시스템의 다중 읽기 스트림에 대한 효과적인 성능 향상 기법 / Sangmin, Lee.
저자명 Lee, Sangmin ; 이상민
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033285

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DCS 19007

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

Distributed file systems are widely used in various areas. One of the key issues is to provide high performance of concurrent read streams (i.e., multiple series of sequential reads by concurrent processes) rather than that of a single stream (i.e., a series of sequential reads by a process) for their applications. The reason is that the performance of concurrent read streams is much more important than that of a single one because concurrent read streams are frequently issued to an individual storage server by multiple clients that are used to serve cloud data, analyze big data, and calculate scientific data. Despite the many studies on local file systems, research has seldom been done on concurrent read streams in distributed file systems with different running environments (i.e., different types of storage devices at storage servers and various network delays between clients and storage servers). Furthermore, most of the existing distributed file systems (e.g., Gluster, HDFS (Hadoop Distributed File System), and Lustre) have a sharply degraded performance compared with a local file system (i.e., EXT4). Therefore, to achieve high performance in concurrent read streams, we do the following. First, for concurrent read streams, we dedicate an individual read stream to a specific I/O worker at a storage server. Second, for each individual read stream, we introduces a populating effect that keeps sending subsequent reads to a storage server (Population of Networked Reads (PNR)) and then, proposes an adaptable prefetching scheme (APS) to obtain the effect even in different running environments. Hence, our APS resolves all the problems that we identified as dramatically degrading the performance in existing distributed file systems. In three different types of storage devices and in various network delays, the evaluation results show that our APS (1) achieves almost the same performance as a local file system from an individual server and (2) minimizes the performance degradation of random reads. On the other hand, by adopting a striped RAID (Redundant Array of Independent Disks) (e.g., RAID-0 and RAID-5) which consists of multiple disks and spreads data across them in parallel, distributed file systems easily enhance the performance of a single read stream and increase storage capacity. In most existing distributed file systems, however, the performance becomes more degraded according to the increasing number of concurrent read streams at all different configurations of stripped RAIDs (i.e., the number of striped disks and the strip size). In this thesis, we do the following for different configurations of stripped RAIDs. First, for concurrent read streams, we define all the problems that degrade the performance and then, resolve them by allocating a network bandwidth to an individual stream in a fair way (FANB). Second, for each individual read stream, we identify why the existing prefetching way fails to achieve the expected performance (i.e., failure to achieve the PNR effect from a striped RAID). Then, we propose a strip-aware prefetching (SAP) to obtain the effect from different configurations of striped RAIDs efficiently. Eventually, our FANB+SAP outperforms all the existing distributed file systems by at least 2 times for all kinds and configurations of striped RAIDs. Furthermore, the performance gap between our proposal and the existing distributed file systems becomes wider according to the increasing number of striped disks.

분산 파일 시스템은 다양한 영역에서 널리 사용되고 있다. 이들의 중요한 이슈들 중 하나는 그들의 애플리케이션에게 단일 읽기 스트림 (즉, 단일 프로세스에 의한 일련의 순차 읽기)보다 높은 다중 읽기 스트림 (즉, 동시 프로세스들에 의한 일련의 순차 읽기)의 성능을 제공하는 것이다. 그 이유는 클라우드 데이터 제공, 빅 데이터 분석, 그리고 과학적 데이터 계산하는 데 사용되는 여러 클라이언트에 의해서 개별 스토리지 서버에서 다중 읽기 스트림이 자주 발행되기 때문이다. 그러나, 지역 파일 시스템에서 많은 연구와는 다르게, 다양한 실행 환경 (즉, (1) 스토리지 서버에서 상이한 유형의 스토리지 디바이스, 그리고 (2) 클라이언트와 스토리지 서버 간의 다양한 네트워크 지연 시간)을 갖는 분산 파일 시스템에서의 다중 읽기 스트림에 대한 연구는 거의 없었다. 또한, 대부분의 기존 분산 파일 시스템 (예: Gluster, HDFS (Hadoop Distributed File System), Lustre)에서의 성능이 지역 파일 시스템 (즉, EXT4)에 비해 다중 스트림의 개수가 증가됨에 따라 성능이 크게 저하된다. 한편, 병렬로 데이터를 분산된 다중 디스크로 구성된 스트라이프 RAID (Redundant Array of Independent Disks) (예: RAID-0 및 RAID-5)를 채택함으로써 분산 파일 시스템의 단일 읽기 스트림의 성능 향상 및 저장 용량 증가를 쉽게 시킬 수 있다. 그러나 대부분의 기존 분산 파일 시스템에서는 다양한 구성 방식 (즉, (1) 스트라이프 크기, (2) 스트라이프된 디스크의 개수)의 스트라이프 RAID에서 읽기 스트림 수가 증가될 수록 성능이 급격히 저하된다. 또한 분산 파일 시스템에서 스트라이프 RAID에 대한 다중 읽기 스트림에 대한 연구는 거의 이뤄지지 않고 있다. 본 논문의 첫 번째 부분에서는 다양한 실행 환경에서도 분산 파일시스템이 높은 다중 읽기 스트림의 성능을 얻기 위해 다음과 같은 방식을 제안한다. 첫째, 다중 읽기 스트림의 경우 개별 읽기 스트림을 스토리 지 서버의 특정 I / O 작업자에게 전담하게 한다. 둘째, 개별 읽기 스트림에 대해 클라이언트에서 스토리지 서버에게 지속적인 읽기 요청을 보내는 효과 (Population of Networked Reads (PNR))를 소개하고, 다양한 실행 환경에서도 이 효과를 얻기 위해 APS (Adaptable Prefetching Scheme)를 제안한다. 따라서 본 논문의 APS는 기존 분산 파일 시스템에서 성능을 크게 저하시키는 모든 문제를 해결하였다. 이를 검증하기 위해서, 본 논문은 세 가지 유형의 저장 장치 및 다양한 네트워크 지연 시간에서 성능 측정을 수행하였다. 그 성능 평가 결과는 APS가 다중 읽기 스트림에 대해 개별 서버의 지역 파일 시스템과 동일한 성능을 획득하고, 또한 랜덤 읽기의 성능 저하를 최소화 함을 보여주었다. 본 논문의 두 번째 부분에서는 다양한 구성 구성의 스트라이프 RAID에서 다중 읽기 스트림의 성능을 높이기 위해 다음과 같은 것을 연구를 수행하였다. 첫째, 다중 읽기 스트림에 대해 성능을 저하시키는 스토리지 서버의 하부 파일시스템의 모든 문제점을 파악한 후, FANB (Fair Bandwidth Allocating)을 통하여 개별 스트림별로 네트워크 대역폭을 할당함으로써 그 문제들을 해결하였다. 둘째, 개별 읽기 스트림에 대해 기존의 미리 읽기 방식으로는 PNR 효과를 얻지 못하는 이유를 밝힌다. 그런 다음, 스트라이프 RAID의 다양한 구성에서도 그 효과를 효율적으로 얻기 위해서 SAP (Strip-Aware Prefetching)을 제안한다. 결과적으로 본 논문의 FANB + SAP는 모든 구성 유형의 스트라이프 RAID 구성에 대해 기존 분산 파일 시스템보다 적어도 2배 이상의 성능을 획득하였다. 더욱이, 스트라이프된 디스크의 수가 증가함에 따라 본 논문의 제안 방식과 기존 분산 파일 시스템 간의 성능 격차가 커짐을 보였다.

서지기타정보

서지기타정보
청구기호 {DCS 19007
형태사항 vi, 85 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이상민
지도교수의 영문표기 : Soon Joo Hyun
지도교수의 한글표기 : 현순주
수록잡지명 : "APS: adaptable prefetching scheme to different running environments for concurrent read streams in distributed file systems". The Journal of Supercomputing, v.74.no.6, pp. 2870-2902(2018)
수록잡지명 : "Fair bandwidth allocating and strip-aware prefetching for concurrent read streams and striped RAIDs in distributed file systems". The Journal of Supercomputing, v.74.no.8, pp. 3904-3932(2018)
학위논문 학위논문(박사) - 한국과학기술원 : 전산학부,
서지주기 References : p. 76-84
주제 Distributed file system
concurrent read streams
data prefetching
adaptable prefetching
device type
network delay
RAID
fair bandwidth allocation
strip-aware prefetching
분산파일시스템
다중 읽기 스트림
데이터 프리패칭
적응형 프리패칭
디바이스 타입
네트워크 지연
공평한 대역폭 할당
스트라이프 인지 프리패칭
QR CODE qr code