A deep neural network (DNN) online learning processor is proposed with high throughput and low power consumption to achieve real-time object tracking in mobile devices. Four key features enable a low-power DNN online learning. First, a proposed processor is designed with a unified core architecture and it achieves 1.33 × higher throughput than the previous state-of-the-art DNN learning processor. Second, new algorithms, binary feedback alignment (BFA) and dynamic fixed-point based run-length compression (RLC), are proposed and reduce power consumption through the reduction of external memory accesses (EMA). Third, new data feeding units, including an integral RLC (iRLC) decoder and a transpose RLC (tRLC) decoder, are co-designed to maximize throughput alongside with the proposed algorithms. Finally, a dropout controller in this processor reduces redundant power consumption by the proposed dynamic clock-gating scheme. This enables the proposed processor to operate DNN online learning with 38.1% lower power consumption. Implemented with 65 nm CMOS technology, the 3.52$mm^2$ DNN online learning processor shows 126 mW power consumption and the processor achieves 30.4 frames-per-second (FPS) throughput in the object tracking application
모바일 기기에서의 실시간 객체 추적을 위해 높은 처리량과 낮은 전력 소모를 갖는 심층 신경망 온라인 학습 프로세서를 제안한다. 먼저, 제안하는 프로세서는 추론과 학습 과정을 같은 코어 아키텍처로 가속합니다. 둘째로, 이진화 피드백 얼라인먼트와 동적 고정 소수점 기반 런 랭스 압축 (Run-length Compression, RLC)을 통해 외부 메모리 접근으로 인한 전력 소모를 감소시켰다. 셋째로, 적분 RLC 디코더와 전치 RLC 디코더를 포함하는 데이터 공급 장치는 프로세서의 높은 처리량을 유지할 수 있도록 도와줍니다. 마지막으로, 드롭 아웃 컨트롤러는 동적 클럭 게이팅을 통해 전력 소모를 감소시킵니다. 이를 통해 프로세서는 38.1% 더 낮은 전력 소비로 심층 신경망 온라인 학습을 할 수 있습니다. 65nm CMOS 기술을 통해, 3.52$mm^2$로 집적된 심층 신경망 온라인 학습 프로세서는 126mW의 전력소모를 보이며, 객체 추적에서 30.4 FPS의 처리량을 보입니다.