A Hybrid floating-point (FP) and fixed-point (FXP) deep learning processor with an outlier-aware channel splitting algorithm is proposed for image-to-image applications on mobile devices. Since the high quality of the reconstructed image through deep learning based image-to-image application requires high bit-precision (> FP16), the mobile processor suffers from the high computation power and large external memory access (EMA). In this work, the proposed algorithm reduces 16-bit FP data to 8-bit FXP data, and only few outliers (< 10%) are computed in 16-bit FP while maintaining the image reconstruction quality. Therefore, it reduces EMA by 45.5%. Moreover, the hierarchical processor accelerates these dense 8-bit FXP data and sparse 16-bit FP data, and the functional L2 memory aggregates the convolution output of them by forming the pipeline, which reduces 98% of latency. The proposed system is simulated in 28nm COMS technology, and it occupies 4.16mm2. The hierarchical processor successfully demonstrates the × 4 scale Full-HD super-resolution generation achieving 76 frames-per-second (fps) with 133.3 mW power-consumption at 0.9 V supply and 3.6 TOPS/W of energy-efficiency which is × 3.27 higher than the previous 16-bit FXP processor.
모바일 장치에서의 이상치를 인식해 채널 분할하는 알고리즘을 갖춘 하이브리드 부동소수점(FP) 및 고정 소수점(FXP) 딥 러닝 프로세서를 제안한다. 딥 러닝 기반 이미지-이미지 변환 애플리케이션을 통해 재구성 된 이미지의 고품질은 높은 비트 정밀도 (> FP16)가 필요하기 때문에 모바일 프로세서는 높은 계산 능력과 큰 외부 메모리 액세스 (EMA) 문제를 겪습니다. 제안 된 알고리즘은 16 비트 FP 데이터를 8 비트 FXP 데이터로 줄이고 이미지 재구성 품질을 유지하면서 16 비트 FP에서 소량의 이상치 (<10 %) 만 계산합니다. 따라서 EMA를 평균 45.5 % 감소시킵니다. 또한 계층 적 프로세서는 이러한 고밀도 8 비트 FXP 데이터와 희소 16 비트 FP 데이터를 가속화하고 기능적인 L2 메모리는 파이프 라인을 형성하여 이들의 합성 곱 연산 출력을 집계하여 98 %의 지연 시간을 줄입니다. 28nm COMS기술를 통해 본 프로세서는 4.16mm2의 면적으로 직접 됩니다. 제안된 계층 적 프로세서는0.9V 공급에서 133.3 mW의 전력 소비를 보이며 기존 16비트 연산기보다 3.27배 높은 3.6 TOPS / W의 에너지 효율로 76fps (초당 프레임 수)를 달성하는 × 4 스케일 풀 해상도(Full HD) 초고해상도 이미지 생성을 성공적으로 시연합니다.