This paper presents EPU, the first explainable AI accelerator that achieves 367FPS heat map generation for ResNet34 and state-of-the-art hardware efficiency. It introduces a new data compression format and sparsity-aware computing core for improving system performance. It proposes a dynamic inference-explanation workload allocation with a customized on-chip network to reduce external memory access by 63.7%. It also proposes point-wise gradient pruning that reduces the size of heat maps by 7.01x.
이 논문에서는 설명가능 인공지능 알고리즘을 가속하는 첫 하드웨어 아키텍처를 다루고 있다. 논문에서 제안한 가속기는 초당 최대 365개의 활성화맵을 출력할 수 있으며, 면적과 소비전력 대비 최첨단 성능을 보이고 있다. 제안한 가속기는 활성화맵에 특화된 새로운 압축 데이터 포맷을 제안하고, 해당 포맷을 활용해 희소행렬을 효과적으로 처리할 수 있는 구조를 제안하였다. 또한 추론 과정과 설명 과정에 대해 동적 워크로드 할당 방법과 이에 맞는 온칩 네트워크를 제안함으로서 외부 메모리 접근을 63.7%로 줄일 수 있었다. 추가적으로, 채널방향 경사도 프루닝 방법을 제시해 희소성을 극대화하고 정확도를 잃지 않도록 하였으며 활성화 맵을 최대 7.01x 줄였다.