This paper presents SparsePU, a processing unit capable of leveraging bit-slice level sparsity for accelerating transformer models within a processing-in-memory (PIM) architecture. This processor achieves performance enhancements by utilizing both activation and weight unstructured bit-slice level sparsity, which has been challenging in conventional PIM structures. The proposed accelerator accelerates operations by performing row-wise matrix multiplication for activation sparsity and enables simultaneous acceleration for various ratios of weight sparsity through a row-wise compressed weight data format. It integrates a network within the accelerator for effective and efficient accumulation of compressed weight data. Additionally, it maximizes operational acceleration in high activation sparsity scenarios through a multi-row skipping scheme. The accelerator significantly enhances performance, achieving up to 857.27x faster computation in actual transformer model layers, and reduces the size of sparse weight data to be stored by up to 93.68%.
이 논문은 프로세싱-인-메모리 구조 내에서 트랜스포머 모델을 가속화하기 위한 비트-슬라이스 레벨 희소성을 활용하는 연산 가속기를 다루었다. 이 가속기는 기존 프로세싱-인-메모리 구조에서 어려웠던 활성화와 가중치의 비정형 희소성를 모두 활용한 연산 가속을 통해 성능 향상을 이루었다. 제안한 가속기는 행 단위로 행렬 곱셈을 통해 활성화 희소성을 통한 가속을 수행하고, 행 단위 가중치 데이터 압축 형식을 통해 다양한 비율의 가중치 희소성을 통한 가속도 동시에 가능하도록 하였다. 압축된 가중치 데이터의 효과적인 누적 연산을 위해 가속기 내에 네트워크를 도입하여 빠르고 정확한 연산 수행이 가능하도록 하였다. 추가적으로, 다중 행 생략 방식을 통해 높은 활성화 희소성 비율에서 연산 가속을 극대화했다. 실제 트랜스포머 모델을 레이어 단위로 가속하여 최대 857.27x 빠른 연산 성능을 보였으며, 저장해야할 희소 가중치 데이터 크기를 최대 93.68%만큼 감소하였다.