서지주요정보
Managing interference and scheduling deep learning tasks on consolidated GPU computing environment = 다중 GPU 환경에서의 딥 러닝 작업을 위한 성능 간섭 제어 및 작업 배치 기볍 연구
서명 / 저자 Managing interference and scheduling deep learning tasks on consolidated GPU computing environment = 다중 GPU 환경에서의 딥 러닝 작업을 위한 성능 간섭 제어 및 작업 배치 기볍 연구 / Seung Beom Choi.
발행사항 [대전 : 한국과학기술원, 2017].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8031444

소장위치/청구기호

학술문화관(문화관) 보존서고

MCS 17055

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep-learning applications have gained popularity among service providers who wish to provide cognitive services to consumers. As deep learning gained popularity, ware-house scale servers have been developed and researched for guaranteeing Quality-of-Service (QoS) and throughput of deep learning tasks. Deep-learning tasks such as training and inference are compute-intensive tasks and accelerated by exploiting the parallelism that exists within. Therefore deep-learning applications are executed on ware-house scale server with GPUs, as means of acceleration. While deep-learning applications and related frameworks have been developed to make use of clustered resources, the key challenge of maximizing resource utilization, with limited amount of resource remains as a challenge. When there are not enough number of tasks to fully utilize the resources, servers are underutilized and the problem still exists when the running tasks are underutilizing GPU. In order to fully utilize resources on server, deep-learning tasks must be executed on a consolidated computing environment where multiple tasks can execute on multiple hardware and flexibly using available resources. However, the main problem on consolidated environments arises when latency-sensitive (LS) tasks receive interference from co-located tasks. Performance degradation is severe especially for compute intensive deep learning tasks. In order to prevent performance degradation, we propose an adaptive controlling method for adjusting the duration of co-located tasks with LS tasks in this dissertation. Since the main source of interference is queuing time, adjusting the time of halting co-located tasks is effective. The ratio of halting time to total execution time is determined adaptively to the performance degradation of the last LS task on the GPU. Additionally, imbalanced workload also hurts performance. In order to ensure balanced workload among GPUs, we propose greedy task scheduling and task migration. For evaluation, we have prepared a machine with multiple GPUs and Caffe implementation of Convolutional Neural Networks (CNN) were used as benchmarks throughout this study. The experimental results show that the proposed control method can prevent performance degradation and provide bandwidth for batch tasks by effectively sharing resources.

오늘날, 소비자에게 인지 기반의 서비스를 제공해주기 위해 많은 딥 러닝(Deep Learning) 애플리케이션들이 인기를 끌고 있다. 딥 러닝이 유행하면서 이를 대규모로 실행하는 클러스터 규모의 서버들이 서비스 품질과 성능을 보장할 수 있도록 연구 및 개발 되고 있다. 딥 러닝에서 수행하는 추론과 학습 작업은 모두 컴퓨팅 자원이 많이 요구되며 병렬 처리가 용이하다는 점을 이용해 가속화한다. 그러므로 클러스터 규모의 서버에 GPU를 이용하는 방식이 가속화 수단으로써 떠오르고 있다. 클러스터 내에 존재하는 자원을 이용할 수 있는 프레임워크(Framework)가 많이 개발되었지만 이러한 자원의 효율성을 최대화 시키는 문제가 아직 존재한다. 만약 충분한 수의 작업들이 자원을 점유하고 있지 않다면 자원의 점유율은 낮아질 것이고 설령 충분한 작업이 존재하더라도 각각의 작업이 자원을 적게 점유하지 않는다면 효율성이 낮아질 수 밖에 없다. 자원을 충분히 효율적으로 사용하기 위해서는 GPU를 통합하여 여러 작업이 여러 GPU에 거쳐 유연하게 배치할 수 있는 기법에 대해 연구해야 한다. 하지만, 통합 환경을 구축하기에 앞서 추론작업과 같이 실행시간이 중요한 작업들이 같이 실행하고 있는 작업 때문에 받는 성능 간섭을 충분히 고려해야 한다. 딥 러닝 작업들은 컴퓨팅 자원을 많이 요구하므로 성능 간섭의 정도가 심할 수 밖에 없다. 성능 저하를 막기 위해 본 논문에서는 실행 시간이 중요한 작업과 함께 실행되는 작업을 상황에 알맞게 조정하는 기법을 제안한다. 성능 저하의 주요 원인은 GPU 작업 대기 시간이다. 이를 조정하기 위해 실행 시간이 중요한 작업과 함께 실행되고 있는 작업을 멈추는 기법을 제안한다. 또한, GPU 간에 불균등하게 분배된 작업도 성능저하를 유발한다. 이를 해결하기 위해, 균등하게 작업을 배치하는 기법과 작업을 다른 GPU로 이동시키는 기법을 제안한다. 본 논문에서 제안한 기법들을 실험하기 위해 다중 GPU를 장착한 컴퓨터를 이용했고 딥 러닝 프레임워크 Caffe를 이용해서 만든 Convolutional Neural Network(CNN) 기반의 애플리케이션들을 대상으로 실험했다. 실험을 해본 결과, 본 논문에서 제안한 방식으로 실행시간이 중요한 작업의 성능 저하를 막을 수 있었으며 효율적으로 자원을 이용하여 같이 실행되고 있는 작업의 성능 또한 어느 정도 보존하는데 성공했다.

서지기타정보

서지기타정보
청구기호 {MCS 17055
형태사항 iv, 30 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 최승범
지도교수의 영문표기 : Jae Hyuk Huh
지도교수의 한글표기 : 허재혁
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 References: p. 27-28
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서