An energy-efficient capsule network processor is proposed for real-time 3D point cloud segmentation. The proposed processor adopts the heterogeneous core architecture pipelined in channel group level to achieve 35.4% latency reduction. Furthermore, the processor integrates a dynamic route skipping controller that predicts unimportant operations and skips them to reduce the external memory access by 39.1%. At last, the squash activation function unit exploits the look-up table (LUT) based computing with L2-norm approximation, which decreases capsule network inference time while only consuming around 1% area and power of the entire processor. The processor is simulated with the 65nm CMOS technology, showing 94.3mW power consumption and 1.15 TOPS/W energy-efficiency.
실시간 3차원 포인트 클라우드 세분화를 위한 고효율 캡슐 네트워크 프로세서를 제안한다. 제안된 프로세서는 35.4%의 지연 시간 감소를 달성하기 위해 채널 그룹 단위에서 파이프라인 된 이형 코어 아키텍처를 채택하였다. 더불어, 이 프로세서는 중요하지 않은 연산을 예측하고 생략하는 동적 라우팅 생략 제어기를 집적하여 외부 메모리 접근량을 39.1%만큼 감소시킨다. 마지막으로, 스쿼시 활성화 함수 유닛은 참조 테이블 기반의 연산 방식과 L2-norm 근사 방식을 활용하여 전체 프로세서의 1% 내외 면적과 전력을 소모하면서 캡슐 신경망 추론 시간을 단축시킨다. 이 프로세서는 65nm CMOS 기술로 시뮬레이션 하였으며, 94.3mW의 전력 소모 및 1.15 TOPS/W의 에너지 효율을 보인다.