An always-on video-based human action recognition (HAR) system on chip (SoC) integrated with a CMOS image sensor (CIS) is proposed for the Internet of Things (IoT) devices. The proposed SoC is the first always-on integrated circuit (IC) performing the full process of HAR in a single chip. To resolve large power consumption from vision sensor and compute- intensive DNN operation, the proposed SoC operates in two different modes; 1) In adaptive frame resolution based human action recognition (AFR-HAR) mode, CIS resolution prediction algorithm and self-adjustable CIS reduce 42.9-91.8% of readout power by adaptively adjusting frame resolution. 2) In motion event detection (MED) mode, the motion event detection unit (MEDU) skips unnecessary imaging and DNN computation by monitoring motion events and leads to over 99% power saving. The proposed HAR SoC is simulated in 65-nm CMOS technology and occupies 8.56 mm2. It consumes only 0.82 μW when no motion is detected and 0.31-8.52 mW for evaluating human actions on the ActivityNet dataset.
본 논문에서는 CMOS 이미지 센서와 심층신경망 프로세서가 함께 집적된 상시 동작형 IoT 기기를 위한 저전력 SoC를 제안한다. 이미지 센서와 심층신경망 연산으로 인한 전력 소모를 줄이기 위해 제안하고자 하는 SoC는 두가지 모드로 동작한다. 가변 해상도 조절 동작 인식 모드는 SoC 내 심층신경망 연산으로 다음 프레임의 최적해상도를 결정하며 가변 해상도 조절 이미지 센서로 읽기 동작에 소모되는 전력을 42.9-91.8%만큼 감소시킨다. 움직임 인식 모드에서는 프레임간 차이의 아날로그 연산을 통해 불필요한 심층신경망 연산 및 아날로그-디지털 변환을 생략하며, 0.82 μW의 전력만 소모한다. 본 SoC는 65nm CMOS 기술로 시뮬레이션 하였으며 ActivityNet 데이터셋을 이용한 전체 동작 인식에 0.31-8.52 mW의 전력 소모를 달성하였다.