We present a deep reinforcement learning acceleration platform named FIXAR, which employs fixed-point data types and arithmetic units for the first time using a SW/HW co-design approach. We propose a quantization-aware training algorithm in fixed-point, which enables to reduce the data precision by half after a certain amount of training time without losing accuracy. We also design a FPGA accelerator that employs adaptive dataflow and parallelism to handle both inference and training operations. Its processing element has configurable datapath to efficiently support the proposed quantized-aware training. We validate our FIXAR platform, where the host CPU emulates the DRL environment and the FPGA accelerates the agent’s DNN operations, by running multiple benchmarks in continuous action spaces based on a latest DRL algorithm called DDPG. Finally, the FIXAR platform achieves 25293.3 inferences per second (IPS) training throughput, which is 2.7 times higher than the CPU-GPU platform. In addition, its FPGA accelerator shows 53826.8 IPS and 2638.0 IPS/W energy efficiency, which are 5.5 times higher and 15.4 times more energy efficient than those of GPU, respectively. FIXAR also shows the best IPS throughput and energy efficiency among other state-of-the-art acceleration platforms using FPGA, even it targets one of the most complex DNN models.
본 논문에서는 SW/HW Co design을 통해 최초로 고정 소수점 기반의 심층 강화학습 가속 플랫폼 FIXAR를 제안하였다. 일정 학습 시간 이후에 데이터 정밀도를 절반으로 줄이는 고정 소수점 기반 동적 양자화를 통해 양자화 이후에도 모델의 정확도를 유지하였다. 또한 하드웨어 측면에서는 추론과 학습 과정을 모두 효과적으로 처리하기 위해 적응형 병렬처리 아키텍처를 제안하였다. 또한 데이터플로우 맞춤형 연산 처리 장치를 통해 동적 양자화의 다양한 비트 연산을 효율적으로 지원하였다. FIXAR 플랫폼에서는 Xilinx U50 FPGA에서 앞의 DNN 작업을 가속하고, host CPU에서는 MuJoCo 강화학습 환경을 구현하였다. FIXAR 플랫폼은 CPU-GPU 플랫폼에 비해 초당 2.7배 더 많은 양의 학습 데이터를 처리하였으며, 5.5배 더 높은 에너지 효율을 보이며 FPGA를 사용하는 다른 가속 플랫폼보다 더욱 복잡한 강화학습 알고리즘을 효율적으로 동작시켰다.