Human pose estimation (HPE) is a promising solution for accurately understanding the state and context of human actions in virtual reality (VR). A high frame rate with low-power HPE processing is required for a realistic user interaction experience in battery-limited mobile devices. The proposed HPE accelerator is a computing-in-memory (CIM) based accelerator that computes depth-wise separable convolution (DWSC) of a lightweight HPE network. Three key features contribute to a resource-efficient CIM accelerator: 1) Dual-mode CIM computes DWSC with a reconfigurable homogenous architecture, resulting in $2.68$ times higher throughput than previous analog CIMs. 2) Effective layer-aware unrolling performs bit-parallel computation on dual-mode CIM with fewer ADC operations, achieving 46 times higher throughput than before. 3) Adaptive fused intermacro balancing improves latency balance in layer fusion execution, leading to a $57.0 %$ higher frame rate than before. The proposed HPE accelerator is implemented in $28nm$ CMOS technology. It achieves higher computation resource utilization and operates HPE with a low energy-delay product of $27.6 uJ \cdot s$ in mobile VR devices.
인간 포즈 추정(HPE)은 가상 현실(VR)에서 인간 행동의 상태와 맥락을 정확하게 이해하기 위한 유망한 솔루션입니다. 배터리 제한이 있는 모바일 장치에서 실제 사용자의 상호 작용 경험을 위해서는 높은 프레임 속도와 저전력 HPE 처리가 필요합니다. 제안된 HPE 가속기는 경량화 HPE 네트워크의 깊이별 분리 가능한 컨볼루션 (DWSC)을 계산하는 메모리 내 연산 (CIM) 기반 가속기입니다. 리소스 효율적인 CIM 가속기에 기여하는 세 가지 주요 기능은 다음과 같습니다. 1) 듀얼 모드 CIM은 재구성 가능한 동종 아키텍처로 DWSC를 계산하여 이전 아날로그 CIM보다 처리량이 2.68배 더 높습니다. 2) Effective layer-aware unrolling 은 더 적은 수의 ADC 작업으로 듀얼 모드 CIM에서 bit-parallel 연산을 수행하여 이전보다 46배 더 높은 처리량을 달성합니다. 3) Adaptive fused inter-macro balancing 은 레이어 융합 실행 시 지연 시간 밸런스를 개선하여 이전보다 $57.0%$ 더 높은 프레임 속도를 구현합니다. 제안된 HPE 가속기는 28nm CMOS 기술로 구현됩니다. 더 높은 컴퓨팅 리소스 활용도를 달성하고 모바일 VR 장치에서 $27.6 uJ \cdot s$의 낮은 EDP로 HPE를 운영합니다.