With the dominance of machine learning and artificial intelligence in today's technology, designing an accelerator platform for fast and efficient completion of inference workloads in datacenters is becoming essential. General-purpose processors such as CPU and GPU have been mainly used in datacenters, but they are not suitable for ML inference workloads due to low performance and high power consumption.
This paper proposes a vector-array architecture with heterogeneity-aware scheduling for multi-user/multi-DNN workloads in datacenters. It features a load balancer and multiple vector-array clusters, where each cluster consists of a scheduler, array processors, and vector processors. The main contribution is threefold. First, we devise the unified model format (UMF) to describe DNN models in a hardware-amenable packet form. Second, we propose a scheduling algorithm that efficiently allocates the concurrent tasks to available resources at run-time by estimating the computation and external memory access time. Third, we implement an analysis framework based on the implementation results of the proposed architecture. Using this framework, we conduct a design space exploration for this architecture and provide insights for advanced ML accelerator design. As a result, the proposed heterogeneity-aware scheduling algorithm improves the throughput and energy efficiency by 82% and 21%, respectively, compared to a standard round-robin algorithm.
This research is conducted in collaboration with Jung-Hoon Kim, a master's student at KAIST.
오늘날의 기술에서 기계 학습 및 인공 지능이 주요해지면서 데이터 센터의 추론 워크로드를 빠르고 효율적으로 처리하기 위한 가속기 플랫폼을 설계하는 것이 중요해지고 있다. 그동안 데이터 센터에는 CPU, GPU와 같은 범용 프로세서가 주로 사용됐지만, 성능이 낮고 전력 소모가 많아 기계 학습 추론 워크로드에는 적합하지 않다.
본 논문은 데이터 센터의 다중 사용자와 다중 심층 신경망 워크로드를 위한 이기종 인식 스케줄링을 갖는 벡터-어레이 아키텍처를 제안한다. 로드 밸런서와 여러 벡터-어레이 클러스터가 특징이며 각 클러스터는 스케줄러, 어레이 프로세서 및 벡터 프로세서로 구성된다. 본 논문의 주요 기여는 세 가지이다. 첫째, 심층 신경망 모델을 하드웨어에서 사용할 수 있는 패킷 형식으로 기술하기 위해 UMF (Unified Model Format)를 고안한다. 둘째, 연산 및 외부 메모리 접근 시간을 추정하여 런타임 시 사용할 수 있는 자원에 동시 작업을 효율적으로 할당하는 스케줄링 알고리즘을 제안한다. 셋째, 제안된 아키텍처의 구현 결과를 기반으로 분석 프레임워크를 구현한다. 프레임워크를 사용하여 아키텍처에 대한 설계 공간 탐색을 수행하고 기계 학습 가속기 설계에 대한 통찰력을 제공한다. 결과적으로 제안된 이기종 인식 스케줄링 알고리즘은 라운드 로빈 알고리즘보다 처리량과 에너지 효율을 각각 82%와 21% 향상시킨다.
본 논문에서 진행한 연구는 KAIST의 김정훈 석사과정과 함께 진행하였다.