서지주요정보
다중 GPU 환경에서 이웃 GPU의 여분 메모리를 활용한 딥러닝 가속화 = Accelerating large DNN training by harvesting spare memory of neighbor GPUs in multi-GPU environment
서명 / 저자 다중 GPU 환경에서 이웃 GPU의 여분 메모리를 활용한 딥러닝 가속화 = Accelerating large DNN training by harvesting spare memory of neighbor GPUs in multi-GPU environment / 최상진.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038031

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

MCS 21067

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As deep learning models are becoming larger and having more parameters, the memory required to train those deep learning models are becoming substantial. Compared to the required memory for training large DNN models, the physical GPU memory is limited due to hardware limitations. Thus, when training large DNN models, alternative approaches such as decreasing the batch size while sacrificing accuracy or distributed training are used. Recently a novel approach called HUVM (Hierarchically Unified Virtual Memory) which exploits the temporarily idle memory of neighbor GPUs connected with high-speed interconnect was introduced as a promising approach to train large DNN models. Instead of moving data back and forth from host to GPU via PCIe, HUVM leverages NVLINK to move data between GPUs, thus efficiently overcommitting memory while training large DNN models. In this study, we scale up HUVM to support up to 4 GPUs. The prior HUVM system was limited to 2 GPUs thus when training large DNN models a single GPU can only harvest one neighbor GPU’s idle memory. We scale up from the prior HUVM system to support up to 4 GPUs thus harvesting up to 3 neighbor GPU’s spare memory when training large DNN models. Our experiment results show significant improvement up to 2.3x compared to prior approach in multi-GPU environments.

딥러닝 모델들이 파라미터가 많아짐에 따라 딥러닝 모델을 학습시키는 데에 필요한 메모리가 늘어나고 있다. 하지만 GPU의 메모리는 큰 딥러닝 모델을 학습시키기에는 용량이 부족하여 배치사이즈를 줄여서 학습을 시키거나 여러 대의 GPU를 사용하여 분산트레이닝을 하는 등의 차선책을 택하고 있다. 최근 하나의 GPU가 NVLINK로 연결이 되어있는 이웃 GPU의 여분 메모리를 활용하는 HUVM (Hierarchically Unified Virtual Memory) 시스템이 배치사이즈를 줄이지 않고 원하는 배치사이즈로 큰 딥러닝 모델을 하나의 GPU에서 학습시키는 연구가 진행되어졌다. HUVM 시스템에서 큰 딥러닝 모델을 학습시킬 때 하나의 GPU의 메모리보다 초과 사용을 하되 데이터가 PCIe를 통해 호스트 메모리로 이동하는 것이 아니라 이웃 GPU와 연결되어 있는 NVLINK를 통해 빠르게 이웃 GPU의 메모리로 이동이 된다. 본 연구에서는 기존에 연구되어진 HUVM 시스템을 바탕으로 다중 GPU간의 여분 메모리 활용을 위한 메모리 활용 기법을 다룬다. 기존 HUVM 연구는 2개의 GPU에서 밖에 동작을 못하여 다중 GPU간의 여분 메모리 활용 기회가 있어도 1개의 이웃 GPU의 여분 메모리 밖에 활용을 못하는 단점이 있다. 기존 HUVM 연구에서 2개의 GPU 시스템에서 동작하던 메모리 활용 기법을 발전시켜 4개의 GPU 시스템에서 여분 메모리 활용 기회를 포착하여 최대 3개의 이웃 GPU의 여분 메모리를 활용하여 딥러닝 모델을 학습시킬 수 있도록 발전시켰다. 텐서플로우의 딥러닝 벤치마크를 통해 실험한 결과 다중 GPU 시스템에서 선행연구와 비교하여 2.3배의 성능 향상을 보여주었다.

서지기타정보

서지기타정보
청구기호 {MCS 21067
형태사항 iii, 20 p. : 삽화 ; 30 cm
언어 한국어
일반주기 저자명의 영문표기 : Sangjin Choi
지도교수의 한글표기 : 권영진
지도교수의 영문표기 : Youngjin Kwon
부록 수록
학위논문 학위논문(석사) - 한국과학기술원 : 전산학부,
서지주기 참고문헌 : p. 18
QR CODE qr code