서지주요정보
Energy-efficient deep-neural-network training processor with fine-grained mixed precision = 고속 학습 가능 고효율 혼합 정밀도 DNN 학습 프로세서
서명 / 저자 Energy-efficient deep-neural-network training processor with fine-grained mixed precision = 고속 학습 가능 고효율 혼합 정밀도 DNN 학습 프로세서 / Jinsu Lee.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036445

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 20091

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, several hardware accelerators have been reported for deep neural network (DNN) operation, however, they focused on only inference rather than DNN training that is a crucial ingredient for user adaptation at the edge-device as well as transfer learning with domain-specific data. However, DNN training requires much heavier floating-point (FP) computation and memory access than DNN inference, thus, dedicated DNN training hardware is essential. In this dissertation, we present a deep learning neural processing unit (LNPU) supporting CNN and FC training as well as inference with the following key features. First, we proposed fine-grained mixed precision (FGMP) scheme. The FGMP divides data into FP8-group and FP16-group in data-element level. FGMP can dynamically adjust the ratio between FP8 and FP16 to reduce external memory access and avoid accuracy loss. With the FGMP, external memory access is reduced by 38.9% for ResNet-18 training. Second, we designed hardware architecture to support FGMP. For high energy efficiency, we proposed DL core architecture with configurable PE and data-path for DNN training with FGMP. As a result, the energy efficiency of LNPU is improved by $2.08 \times$ ResNet-18 training. Lastly, we proposed fully-reconfigurable hardware architecture for various kinds of operations in DNN training/inference with zero-skipping. With the help of fully-reconfigurable hardware architecture, proposed LNPU can support all of the steps of DNN training with skipping zeros which are derived from FGMP and ReLU, and so on. As a result, the energy efficiency is $ \times 4.4$ higher than NVIDIA V100 GPU and its normalized peak performance is $\times 2.4$ higher than the previous DNN training processor.

최근 딥 뉴럴 네트워크 (DNN) 알고리즘 가속을 위한 효율적인 하드웨어가 많이 발표되고 있다. 하지만, 기존의 Edge/Mobile용 DNN 하드웨어는 학습 기능은 지원하지 못하고, 서버에서 학습 된 DNN 모델을 그대로 다운로드 받아 추론 기능만을 지원하는데 불과하였다. 고성능과 개인화를 위해서는 사용자의 개인적인 데이터를 기반으로 한 On-device DNN 학습이 필요하다. 그러나 DNN 학습은 추론보다 훨씬 많은 에너지를 소모하는 부동 소수점 연산기를 필요로 하고, 많은 메모리 액세스가 필요하므로 이를 효율적으로 처리하는 전용 DNN 학습 하드웨어가 필수적이다. 본 논문에서는 Convolution Neural Network Layer와 Fully Connected Layer의 학습을 효율적으로 처리하는 딥 러닝 프로세서(LNPU)를 설계하는 것이 목표이다. 먼저, 본 논문에서는 에너지 효율적인 DNN 학습을 위해서 미세 혼합 정밀도(FGMP)를 제안했다. FGMP는 데이터를 요소 수준에서 FP8 그룹과 FP16 그룹으로 나누어 연산을 최적화 하는 방법이다. FGMP는 FP8과 FP16 사이의 비율을 동적으로 조정하여 외부 메모리 액세스를 줄이고 정확도 손실을 방지할 수 있다. 이로 인해 학습하고자 하는 DNN의 종류에 따라 정확도를 유지하면서 최적화된 에너지 효율을 가질 수 있다. 또한, 본 논문에서는, 결과에 영향을 미치지 않는 0 입력 연산을 건너 뛰는 기능을 DNN 추론 뿐만 아니라 학습에서도 지원하는 하드웨어 아키텍처를 제안했다. 그 결과, 에너지 효율은 NVIDIA V100 GPU보다 $\times 4.4$ 더 높고, 기존 DNN 학습 전용 프로세서보다 $\times 2.4$ 더 높은 성능을 보여 준다.

서지기타정보

서지기타정보
청구기호 {DEE 20091
형태사항 vii, 113 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이진수
지도교수의 영문표기 : Hoi-Jun Yoo
지도교수의 한글표기 : 유회준
수록잡지명 : "An Energy Efficient Sparse Deep Neural Network Learning Accelerator With Fine-Grained Mixed Precision of FP8 FP16". IEEE Solid-State Circuits Letters, v.2.no.11, pp.232-235(2019)
수록잡지명 : "LNPU: A 25.3TFLOPS/W Sparse Deep-Neural-Network Learning Processor with Fine-Grained Mixed Precision of FP8-FP16". 2019 IEEE International Solid- State Circuits Conference, 2019, pp.142-143(2019)
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 107-109
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서