서지주요정보
Exploration of vector-array architecture with heterogeneity-aware scheduling for multi-user/multi-DNN workloads = 다중 사용자와 다중 심층 신경망 워크로드를 위한 이기종 인식 스케줄링을 갖는 벡터-어레이 구조 탐색
서명 / 저자 Exploration of vector-array architecture with heterogeneity-aware scheduling for multi-user/multi-DNN workloads = 다중 사용자와 다중 심층 신경망 워크로드를 위한 이기종 인식 스케줄링을 갖는 벡터-어레이 구조 탐색 / Sungyeob Yoo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038803

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22058

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

With the dominance of machine learning and artificial intelligence in today's technology, designing an accelerator platform for fast and efficient completion of inference workloads in datacenters is becoming essential. General-purpose processors such as CPU and GPU have been mainly used in datacenters, but they are not suitable for ML inference workloads due to low performance and high power consumption. This paper proposes a vector-array architecture with heterogeneity-aware scheduling for multi-user/multi-DNN workloads in datacenters. It features a load balancer and multiple vector-array clusters, where each cluster consists of a scheduler, array processors, and vector processors. The main contribution is threefold. First, we devise the unified model format (UMF) to describe DNN models in a hardware-amenable packet form. Second, we propose a scheduling algorithm that efficiently allocates the concurrent tasks to available resources at run-time by estimating the computation and external memory access time. Third, we implement an analysis framework based on the implementation results of the proposed architecture. Using this framework, we conduct a design space exploration for this architecture and provide insights for advanced ML accelerator design. As a result, the proposed heterogeneity-aware scheduling algorithm improves the throughput and energy efficiency by 82% and 21%, respectively, compared to a standard round-robin algorithm. This research is conducted in collaboration with Jung-Hoon Kim, a master's student at KAIST.

오늘날의 기술에서 기계 학습 및 인공 지능이 주요해지면서 데이터 센터의 추론 워크로드를 빠르고 효율적으로 처리하기 위한 가속기 플랫폼을 설계하는 것이 중요해지고 있다. 그동안 데이터 센터에는 CPU, GPU와 같은 범용 프로세서가 주로 사용됐지만, 성능이 낮고 전력 소모가 많아 기계 학습 추론 워크로드에는 적합하지 않다. 본 논문은 데이터 센터의 다중 사용자와 다중 심층 신경망 워크로드를 위한 이기종 인식 스케줄링을 갖는 벡터-어레이 아키텍처를 제안한다. 로드 밸런서와 여러 벡터-어레이 클러스터가 특징이며 각 클러스터는 스케줄러, 어레이 프로세서 및 벡터 프로세서로 구성된다. 본 논문의 주요 기여는 세 가지이다. 첫째, 심층 신경망 모델을 하드웨어에서 사용할 수 있는 패킷 형식으로 기술하기 위해 UMF (Unified Model Format)를 고안한다. 둘째, 연산 및 외부 메모리 접근 시간을 추정하여 런타임 시 사용할 수 있는 자원에 동시 작업을 효율적으로 할당하는 스케줄링 알고리즘을 제안한다. 셋째, 제안된 아키텍처의 구현 결과를 기반으로 분석 프레임워크를 구현한다. 프레임워크를 사용하여 아키텍처에 대한 설계 공간 탐색을 수행하고 기계 학습 가속기 설계에 대한 통찰력을 제공한다. 결과적으로 제안된 이기종 인식 스케줄링 알고리즘은 라운드 로빈 알고리즘보다 처리량과 에너지 효율을 각각 82%와 21% 향상시킨다. 본 논문에서 진행한 연구는 KAIST의 김정훈 석사과정과 함께 진행하였다.

서지기타정보

서지기타정보
청구기호 {MEE 22058
형태사항 iii, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 유성엽
지도교수의 영문표기 : Joo-Young Kim
지도교수의 한글표기 : 김주영
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 23-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서