One of the emerging issues in artificial intelligence workload is the lack of sufficient memory bandwidth during AI computations. To overcome this, bank-level PIM architectures, which integrate computing capabilities within DRAM banks to maximize memory bandwidth efficiency, have started to appear as proof of concept (POC) or have begun to be commercialized. Manufacturers of bank-level PIMs have made their products compatible with existing systems without requiring hardware changes to processors (CPU or GPU), but this compatibility introduces several inefficiencies. This thesis analyzes commercially available bank-level PIM, identifying performance degradation in data movement between DRAM and bank-level PIM. To address this, the thesis proposes memory mapping, direct memory access accelerators, and scheduling algorithms.
최근 인공지능에서 대두되고 있는 문제점 중 하나는 인공지능 연산 시 메모리 대역폭이 부족하다는 점이 있다. 이를 극복하기 위해 동적 램(DRAM) 뱅크 내부에 연산 기능을 통합함으로서 메모리 대역폭의 효율을 극대화하는 뱅크-기반 프로세싱-인-메모리(PIM) 아키텍쳐가 개념 증명(POC) 단계로 등장하거나 시판되기 시작했다. 뱅크-기반 프로세싱-인-메모리 제조사들은 기존 시스템과의 호환성을 위해 프로세서(중앙처리장치 또는 그래픽처리장치)의 하드웨어 변경없이 사용가능하게 했으나 이로 인한 많은 비효율성이 발생하게 된다. 본 학위 논문은 시판되는 뱅크-기반 프로세싱-인-메모리를 기반으로 분석을 진행하여 동적 램과 뱅크-기반 프로세싱-인-메모리 간 데이터 이동에 성능 저하가 있다는 것을 파악했으며 이를 위한 메모리 매핑, 직접 메모리 접근 가속기, 그리고 스케줄링 알고리즘을 제안한다.