Recently, deep neural network (DNN) has been actively researched from simple recognition tasks to precise control for robot or autonomous systems, which are treated as a task that only human can do. Unlike recognition tasks, the real-time operation is essential in action control, and it is too slow to use remote learning on a server communicating through a network. New learning techniques, such as reinforcement learning (RL), are needed to determine and select the correct robot behavior locally. In this paper, we propose a low power deep reinforcement learning (DRL) SoC, supporting CNN and learning-optimized RNNs. The adaptive reusability of weights and inputs, and data encoding/decoding techniques reduces power consumption and peak memory bandwidth of DRL processing by 31% and 41%, respectively. The 65nm 16mm2 chip achieves a peak 2.16TFLOPS/W at 0.73V and 204 GFLOPS at 1.1V with 16b data.
최근, 딥 뉴럴 네트워크 분야는 로봇, 자동차 등과 같이 그동안 사람만이 정밀한 동작을 컨트롤할 수 있어왔던 시스템에서 네비게이션 및 모션 컨트롤 등에 사용 가능케하기 위해 활발히 연구가 진행되어지고 있다.물체 인식, 음성인식과 같은 비교적 간단한 연산에 비해, 위 시스템의 동작 컨트롤, 네비게이션 연산 등은 실시간 동작이 필수적이며, 이를 클라우드 환경에서 원격으로 수행한다는 것은 그 동작 수행 속도 및 지속적인 인터넷 망 연결성 등에 의해 그 수행능력이 극히 제한될 수 있다. 따라서 본 연구에서는 딥 러닝 분야에서 활발히 연구되어 오고 있으며, 동작 컨트롤 및 네비게이션 연산에서 높은 정확도를 보이는 딥러닝 기반 강화학습(혹은 Deep Reinforcement Learning)을 로컬 기기에 접목시키기 위한 방법론에 대해 다루어 보고자 한다. 본 연구에서는 로컬 기기에서 저전력으로 강화학습을 수행하기 위해 강화학습 연산 전용 SoC를 개발하였다. 본 SoC는 추론(Inference) 연산과 학습(Learning) 연산이 반복적으로 수행되는 강화학습의 특성상 연산 중간에 SoC의 데이터 패스를 각 연산에 적합한 형태로 제어하며, 학습 연산을 위해 데이터를 압축형태로 저장하기 위한 방법을 접목하였다.