서지주요정보
(A) fast distributed deep learning platform based on virtual shared memory framework for high performance computing system = 고성능 컴퓨팅 시스템을 위한 가상 공유 메모리 프레임워크 기반 고속 분산 딥러닝 플랫폼
서명 / 저자 (A) fast distributed deep learning platform based on virtual shared memory framework for high performance computing system = 고성능 컴퓨팅 시스템을 위한 가상 공유 메모리 프레임워크 기반 고속 분산 딥러닝 플랫폼 / Shinyoung Ahn.
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032737

소장위치/청구기호

학술문화관(문화관) 보존서고

DICE 18004

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep learning is one of the major promising machine learning methodologies. Deep learning is widely used, e.g., in image recognition, voice recognition, and natural language processing. In order to improve learning accuracy, deep neural networks have evolved by (i) increasing the number of layers and also by (ii) increasing the number of parameters in massive models. This implies that distributed deep learning platforms need to evolve to deal with huge/complex deep learning models and process with high performance computing resources for massive training data. The problems that the distributed deep learning platforms should address is to communicate deep learning parameters at high speed between distributed deep learning processes and to reduce the parameter traffic.To exchange deep learning parameters fast, we have to overcome inherent inefficiency of existing communication libraries and protocols.First, this thesis proposes a novel virtual shared memory framework, called Soft Memory Box~(SMB), which enables distributed processes in the computing servers share the memory of remote servers with lower overheads so as to improve communication performance. Second, this thesis proposes a new distributed deep learning platform, named as ShmCaffe, which utilizes remote shared memory for communication overhead reduction in massive deep neural network training parameter sharing. ShmCaffe is designed based on the SMB, a virtual shared memory framework. In the ShmCaffe platform, the remote shared memory is used as a shared buffer for asynchronous massive parameter sharing among many distributed deep learning processes. Moreover, a hybrid method that combines asynchronous and synchronous parameter update methods is also discussed in this platform to improve scalability. According to the first performance evaluation results, the communication time of the SMB is 2.1 times faster than that of the massage passing interface (MPI) in the scenario where computation and communication is sequential. In addition, in the parallel computation-communication scenario, the communication time of the SMB-based asynchronous parameter update becomes 2 through 7 times faster than that using the MPI depending on deep learning models and the number of deep learning workers. As a result of second evaluation, This paper verifies that the Inception_v1 model training using ShmCaffe converge by varying the number of workers. The scalability of ShmCaffe is evaluated by comparing the Inception_v1 training time of asynchrnous ShmCaffe and hybrid ShmCaffe. ShmCaffe is 10.1 times faster than Caffe, 2.8 times faster than Caffe-MPI, and 2.6 times faster than Tensorflow in the training of Inception_v1 with 16 GPUs. The main benefits of communication traffic, and by scaling out the deep learning workers. As a results, ShmCaffe improves the productivity of deep learning network developer, reduce the cost by increasing the utilization of the computation resources, and overcome heterogeneity of GPU servers.

주요 기계 학습 방법들 중에서 가장 유망한 기술 중 하나인 딥러닝은 이미지 인식, 음성 인식 및 자연어 처리에 널리 사용되고 있다. 이러한 딥러닝의 정확도를 높이기 위해, 심층신경망의 계층 수 및 파라미터의 수가 급증하고 있다. 이는 대규모 학습 데이터로부터 크고 복잡한 딥러닝 모델들을 학습함에 있어, 분산 딥러닝 플랫폼들이 고성능 컴퓨팅 자원을 효과적으로 이용하여 학습할 수 있도록 진화할 필요가 있음을 의미한다. 이를 위해 분산 딥러닝 플랫폼들이 해결해야 하는 문제는 분산 딥러닝 프로세스들 간 고속으로 파라미터를 통신하는 것과 파라미터 통신량의 감축이다. 고속 딥러닝 파라미터 교환을 위해서는 딥러닝의 통신에 사용되는 기존 통신 라이브러리 및 통신 프로토콜의 내재적인 비효율성을 극복해야 한다. 이를 위해 본 논문은 첫번째로 `소프트 메모리 박스(SMB)'라 명명된 새로운 가상 공유 메모리 프레임워크를 제안한다. 이 프레임워크는 통신 성능을 향상시키기 위해서 다수의 컴퓨팅 서버들에 분산된 프로세스들이 더 적은 오버헤드로 원격 서버의 메모리를 공유하게 해준다. 두번째로 본 논문은 대 규모 심층신경망 훈련시 파라미터 공유의 통신 오버헤드 감축을 위해 가상 공유 메모리 프레임워크인 SMB가 제공하는 원격 공유메모리를 사용하는 `ShmCaffe'라 명명된 새로운 분산 딥러닝 플랫폼을 제안한다. ShmCaffe 플랫폼은 원격 공유 메모리를 다수의 분산 딥러닝 프로세스들간 비동기 대규모 파라미터 통신을 위한 공유 버퍼로 사용하는 첫번째 연구이다. 본 논문은 또한 파라미터 통신량의 감축을 위해서 비동기와 동기 파라미터 업데이트 방법을 결합한 하이브리드 방법을 제시한다. 본 연구는 상기 제안을 검증하기 위해 3번의 시험을 수행하였다. 첫번째 성능 시험으로부터, 계산과 통신이 순차적인 딥러닝 에뮬레이션 시나리오에서는 SMB의 통신 시간이 메시지 패싱 인터페이스를 사용한 방법보다 2.1배 더 빠름을 확인하였고, 계산과 통신이 중첩되는 시나리오에서는 SMB의 통신 시간이 딥러닝 모델과 작업자의 수에 따라 MPI의 통신 시간 보다 2배에서 최대 7배까지 더 빠름을 확인하였다. 두번째 성능 시험의 결과로, 학습자의 수를 변화시켜 가면서 ShmCaffe를 사용하여 Inception_v1 모델의 심층 학습이 수렴하는 것을 확인하였으며, 또한 비동기와 하이브리드 ShmCaffe의 Inception_v1 트레이닝 시간을 비교 분석함으로써 ShmCaffe의 확장성을 검증하였다. 마지막 시험에서는 타 분산 딥러닝 플랫폼과의 Inception_v1 모델의 심층 학습의 성능비교를 수행하였다. 16개의 GPU를 사용했을 때 ShmCaffe는 단일 GPU를 사용한 Caffe보다 10.1배, 동일한 수의 GPU를 사용한 Caffe-MPI 보다는 2.8배, Tensorflow보다 2.6배 더 우수하다. 본 논문에서 제안하는 ShmCaffe는 고속 분산 딥러닝을 가능케 한다. 이를 통해 딥러닝 모델 개발자들의 생산성을 향상할 수 있으며, 계산 자원의 자원 활용률을 제고할 뿐 아니라 분산 딥러닝에 있어 이종 GPU 서버들의 이질성을 극복할 수 있다.

서지기타정보

서지기타정보
청구기호 {DICE 18004
형태사항 vii, 104 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 안신영
지도교수의 영문표기 : Sungwon Kang
지도교수의 한글표기 : 강성원
수록잡지명 : "1. Soft Memory Box: A Virtual Shared Memory Framework for Fast Deep Neural Network Training in Distributed High Performance Computing". 1. IEEE Access, v.6, no.1, 26493-26504(2018)
수록잡지명 : "A Distributed Deep Learning Platform with Shared Memory Buffer for HPC Architecture". ICDCS 2018 conference, vol 1, pp.1118-1128(2018)
Appendix : A. Evaluation data of shmcaffe scalability.
학위논문 학위논문(박사) - 한국과학기술원 : 정보통신공학과,
서지주기 References : p. 82-86
QR CODE qr code