An energy-efficient convolutional neural network (CNN) processor is proposed for real-time image segmentation on mobile devices. The proposed processor utilizes ROI (Region of Interest) based image segmentation to speed up the process and reduce the overall external memory access. Although the ROI based image segmentation degrades the segmentation accuracy, the proposed dilation rate adjustment algorithm, which regulates the receptive field depending on the ROI resolution during dilated convolution, compensates for the accuracy degradation up to 0.2231 mean Intersection over Union (mIoU). In addition, the processor accelerates the dilated and transposed convolution by skipping the redundant zero computations with the proposed delay cells. As a result, the throughput of dilated and transposed convolution is increased up to ×159 and ×3.84. The delay cells can also support the variable dilation rates in dilated convolution caused by the dilation rate adjustment algorithm. The processor is simulated in 65 nm CMOS technology, and the 6.8 $mm^2$ processor consumes the 206 mW power consumption with the 215 frames-per-second (fps) and 3.22 TOPS/W energy-efficiency at the target image segmentation dataset.
모바일 기기에서 실시간 이미지 세분화를 위한 효율적인 합성곱 신경망 가속 프로세서를 제안한다. 이 프로세서는 관심 영역 기반 이미지 세분화를 활용하여 연산속도를 높이고 외부 메모리 접근량을 감소시킵니다. 관심 영역 기반 이미지 세분화는 세분화 정확도를 감소시키지만, 관심 영역 크기에 따른 팽창 합성 신경망의 수용 영역을 조절하여 세분화 정확도를 최대 0.2231 mIoU (mean Intersection over Union)까지 복원시키는 알고리즘을 제안합니다. 또한, 지연 셀 로직을 제안하여 팽창 및 전치 합성 신경망의 숫자 0 연산을 건너뛰어 합성곱 신경망 연산을 가속합니다. 그 결과, 팽창 합성곱 신경망 연산과 전치 합성곱 신경망의 처리량을 각각 최대 159배와 3.84배까지 증가시킵니다. 이 지연 셀은 관심 영역에 따른 팽창 합성 신경망의 다양한 수용 영역 조절을 지원할 수 있습니다. 이 프로세서는 65nm CMOS 기술로 시뮬레이션 하였으며, 이 6.8$mm^2$ 면적의 프로세서는 이미지 세분화 데이터셋에서 초당 215 프레임의 처리량을 보이고 206 mW의 전력 소모 및 3.22 TOPS/W 에너지 효율을 보입니다.