서지주요정보
데이터 관리 정책과 저장 장치 성능 분석을 위한 재구성 용이한 HDFS 시뮬레이션 환경 = Reconfigurable HDFS simulation environment for performance analysis of data management policy and storage device
서명 / 저자 데이터 관리 정책과 저장 장치 성능 분석을 위한 재구성 용이한 HDFS 시뮬레이션 환경 = Reconfigurable HDFS simulation environment for performance analysis of data management policy and storage device / 이순주.
저자명 이순주 ; Lee, Sun-Ju
발행사항 [대전 : 한국과학기술원, 2014].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8026473

소장위치/청구기호

학술문화관(문화관) 보존서고

MEE 14065

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

Flood of data brings out Big Data. Big Data is defined as a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications. Among the various platforms for processing the Big Data, Hadoop - an open source software project sponsored by The Apache Software Foundation which implements the MapReduce architecture - has gained much popularity due to its high scalability and performance. Hadoop is composed of MapReduce for parallel computing and Hadoop Distributed File System (HDFS) for storing/managing data in distributed manner. HDFS management is significant for high performance of MapReduce application, because MapReduce framework is deployed on the top of HDFS. During the processing of a MapReduce job, each map task is preferentially deployed on the datanode which has the data to be processed. And the each map task reads input data from the each datanode when the data locality is satisfied. After the MapReduce job is completed, the final outputs are written to the HDFS. Therefore data management of HDFS is very important to Hadoop. Furthermore analyzing the performance of storage is also an important issue in Hadoop, because the data is stored in storage devices. There are some researches about these issues. However, Hadoop is so large system - hundreds or thousands of machines - that it is infeasible to build a real Hadoop system to test various data management policies versus various storage device specifications. To address these issues, this thesis proposes a reconfigurable HDFS Simulation Environment, which provides the following capabilities: 1) synthesizing the scalable R/W access patterns of MapReduce applications to HDFS, using the results & logs of small size Hadoop clusters; 2) providing the reconfigurable models to test various data management policies with easily changing data placement algorithms, replication degree, block size, and the number of datanodes. The proposed simulation environment enables users to easily simulate various data management policies of Hadoop. Moreover, interoperation with DiskSim, developed by University of Michigan and enhanced by CMU, allows users to test the performance of storage system for various specification. This thesis provides how to apply the proposed simulation environment to conduct case studies. These case studies demonstrate that the reconfigurable HDFS Simulation Environment can be used to analyse performance of HDFS with various data management policies and storage devices.

오늘 날에는 수많은 데이터들로 넘쳐나고 있으며, 이로 인하여 빅 데이터라는 분야가 생겨났다. 빅 데이터는 기존의 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 빅 데이터를 저장 및 처리하는 다양한 플랫폼들이 존재하지만 이들 중 대표적인 것이 Hadoop 플랫폼이다. Hadoop 플랫폼은 Apache Software Foundation에서 개발한 오픈소스 소프트웨어로, 뛰어난 확장성과 성능으로 인하여 가장 범용적으로 사용되고 있다. 이러한 Hadoop 플랫폼은 병렬 처리를 위한 MapReduce와 데이터를 분산 저장 및 관리하는 Hadoop 분산 파일 시스템인 HDFS로 구성된다. MapReduce 프레임워크는 HDFS 위에 구축되어 HDFS로부터 데이터를 읽어 들이고 저장하며, 하나의 애플리케이션을 분산 및 병렬적으로 처리한다. 그렇기 때문에 MapReduce 애플리케이션의 성능에 있어서 HDFS의 역할인 데이터 관리는 매우 중요하다. 또한 이러한 작업 시 실질적으로 데이터를 저장하고, 읽어오는 저장 장치의 성능을 분석하는 것도 중요한 문제이다. 하지만 Hadoop 플랫폼은 일반적으로 하나의 클러스터가 수 백 ~ 수 천대 규모로 구성되는 대규모 시스템이기 때문에 실제로 대규모 Hadoop 플랫폼을 구축하여 다양한 데이터 관리 정책과 저장 장치에 따른 성능을 테스트하는 것을 현실적으로 매우 어려운 일이다. 본 논문에서는 이러한 어려움을 해결하기 위하여, 다음과 같은 기능을 제공하는 재구성 용이한 HDFS 시뮬레이션 환경을 제안한다. 1) 소규모 Hadoop 클러스터의 실행 결과와 로그 정보를 통하여, 임의의 규모의 MapReduce 애플리케이션의 읽기/쓰기 패턴 생성이 가능하다. 2) 다양한 데이터 관리 정책을 테스트하기 위한 재구성 용이한 모델을 제공함으로써, 데이터 저장 알고리즘과 복제 블록 개수, 블록 크기, Data Node 개수를 변경하는 것이 용이하다. 이와 같은 제안하는 시뮬레이션 환경을 통하여 사용자는 테스트 하고자 하는 MapReduce 애플리케이션에 따른 다양한 데이터 관리 정책을 시뮬레이션 하는 것이 용이하다. 또한 잘 알려진 저장 장치 시뮬레이터인 DiskSim을 연동함으로써, 다양한 저장 장치에 따른 성능 분석이 가능하다. 본 논문은 제안하는 시뮬레이션 환경을 활용하는 방법을 제시하고, 제안하는 방법에 따라 사례 연구를 수행한다. 사례 연구를 통하여 제안하는 시뮬레이션 환경이 다양한 데이터 관리 정책과 저장 장치에 따른 HDFS의 성능 분석이 가능함을 확인할 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 14065
형태사항 ⅴ, 64 p. : 삽도 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Sun-Ju Lee
지도교수의 한글표기 : 김탁곤
지도교수의 영문표기 : Tag-Gon Kim
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학과,
서지주기 참고문헌 : p. 63-64
주제 Hadoop
HDFS
재구성
시뮬레이션 환경
DiskSim
Hadoop
HDFS
Reconfiguration
Simulation Environment
DiskSim
QR CODE qr code