서지주요정보
U-PIM: a unified processing-in-memory architecture with multiple dataflows for machine learning inference and training = 인공지능 학습과 추론을 위한 다중 데이터 플로우 통합 인-메모리 연산 아키텍처
서명 / 저자 U-PIM: a unified processing-in-memory architecture with multiple dataflows for machine learning inference and training = 인공지능 학습과 추론을 위한 다중 데이터 플로우 통합 인-메모리 연산 아키텍처 / Jaehoon Heo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038834

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22089

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

As artificial intelligence and machine learning technology are revolutionizing our daily life, many accelerator architectures have been proposed for faster and more energy-efficient processing for the workloads. However, the von Neumann bottleneck often limits their system performance, which states the unavoidable data bandwidth problem caused by separated computation and memory units. The processing-inmemory paradigm, which merges logic into memory, becomes increasingly popular to address this system bottleneck. In this paper, we propose a unified processing-in-memory (U-PIM) architecture, which supports both inference and training for various deep learning models, including MLPs, CNNs, RNNs, and transformers. U-PIM comprises an array of SRAM-based PIM macros and an embedded DRAM, where the macros work on the tiled workloads and the eDRAM provides a global memory space. U-PIM allows various data flows based on the proposed tile scheduling algorithms, including forward propagation, error propagation, and weight update for end-to-end on-chip training. It also supports variable bit precision ranging from 1-bit to 16-bit for inference scenarios with quantized models. Throughout the entire processing, UPIM efficiently handles sparsity for better performance and energy efficiency. To validate the U-PIM architecture, we implement the U-PIM macro that contains an 8T-cell-based 3-way processing memory and a 6T-cell-based weight update memory along with bit-serial-based accumulation logic in a compact footprint of 0.315mm$^2$ in 28nm process. With the 64 macros in an 8×8 array, U-PIM achieves 0.31-18.18 TOPS inference performance for several layers from popular models. Finally, we demonstrate that U-PIM can successfully train the VGG16 model for the CIFAR100 dataset with a negligible loss in accuracy. As a result, it achieves 1.29 TOPS/W power efficiency and 7.65 GOPS/mm$^2$ area efficiency in the training, which are 186.24 times more power efficient and 2.8 times more area efficient than Nvidia TITAN X GPU.

인공지능과 기계 학습 기술이 우리의 일상생활에 혁신을 일으킴에 따라, 이를 위해 필요한 작업량을 더 빠르고 에너지 효율적으로 처리하는 많은 가속기 아키텍처들이 제안되었습니다. 그러나, 제안된 아키텍처들의 시스템 성능은 폰 노이만 구조의 병목현상에 의해 종종 제한받는데, 이는 연산 유닛과 메모리 유닛이 분리됨에 따라서 필연적으로 발생하는 데이터 대역폭 문제입니다. 이 시스템 병목 문제를 해결하기 위해서, 연산 유닛을 메모리 내부에 결합하는 인-메모리 연산 패러다임이 점점 많은 관심을 받고 있습니다. 본 논문에서는 MLP, CNN, RNN 그리고 Transformer를 포함한 다양한 딥 러닝 모델에 대한 추론과 학습을 모두 지원하는 U-PIM(Unified Processing-in-Memory) 아키텍처를 제안합니다. U-PIM은 SRAM 기반의 PIM 마크로 어레이와 eDRAM으로 구성되며, 마크로는 타 일화 된 작업량을 처리하고 eDRAM은 전반적인 메모리 공간을 제공합니다. U-PIM은 제안된 타일 스케줄링 알고리즘을 기반으로 하여 다양한 데이터 흐름을 허용하며, 여기에는 온 칩에서의 종단 간 학습을 위한 순방향 전파, 오류 전파 및 가중치 업데이트가 포함됩니다. 또한, 양자화된 모델의 추론 시나리오를 위해 1-비트부터 16-비트까지의 다양한 비트 정밀도를 지원합니다. 그리고 U-PIM은 전체 연산 과정에서 더 나은 성능과 에너지 효율성을 위해서 데이터 희소성을 효율적으로 처리합니다. U-PIM 아키텍처를 검증하기 위해 본 논문은 8T 셀 기반의 삼-방향 처리 메모리와 6T 셀 기반의 가중치 업데이트 메모리를 포함하며, 비트 직렬 기반의 누적 로직도 포함하는 UPIM 마크로를 28nm 공정에서 0.315mm$^2$의 면적을 차지하도록 촘촘하게 구현했습니다. 8×8 배열의 64개 마크로를 사용하여 U-PIM은 인기 있는 모델의 여러 계층에 대해 0.31-18.18 TOPS 추론 성능을 달성합니다. 마지막으로 본 논문은 U-PIM이 CIFAR100 데이터 세트에서 VGG16 모델을 무시할 수 있는 정도의 정확도 손실로 성공적으로 학습할 수 있음을 증명합니다. 그 결과, 학습 과정에서 1.29 TOPS/W의 전력 효율과 7.65 GOPS/mm$^2$ 면적 효율을 달성했으며, 이는 U-PIM이 Nvidia TITAN X GPU보다 186.24배 더 전력 효율적이고 2.8배 더 많은 면적 효율적임을 보여줍니다.

서지기타정보

서지기타정보
청구기호 {MEE 22089
형태사항 iv, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 허재훈
지도교수의 영문표기 : Joo-Young Kim
지도교수의 한글표기 : 김주영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 23-26
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서