서지주요정보
(A) high energy-efficiency adaptive fixed-point DNN training processor = 고에너지 효율의 적응형 고정 소수점 DNN 학습 프로세서
서명 / 저자 (A) high energy-efficiency adaptive fixed-point DNN training processor = 고에너지 효율의 적응형 고정 소수점 DNN 학습 프로세서 / Han, Donghyeon.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040323

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23052

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep learning becomes the mainstream of artificial intelligence applications and its demand is increasing day by day. Previously, deep learning was only considered for cloud-server applications because of the huge computation amount. Many edge/mobile devices are now able to utilize deep neural networks (DNNs) thanks to the development of mobile DNN accelerators. Mobile DNN accelerators overcame the problem of limited computing resources and battery capacity by realizing energy-efficient inference. However, it shows passive behavior so it makes AI hard to be actively interacting with individual users or its service environment. The importance of on-chip training becomes rising more and more because of this limitation. Despite its advantages, DNN training has more constraints than inference so it was hard to be realized in mobile/edge devices. This paper suggests two mobile DNN training processors; DF-LNPU which focused on the acceleration of a specific application and HNPU which is a general-purpose DNN training processor, which is an energy-efficient DNN training processor by adopting algorithm-hardware co-design. The first DNN training processor, DF-LNPU, is proposed using direct feedback alignment (DFA). The proposed processor achieves a 2.2 × faster DNN training speed compared with the previous processors by the pipelined DFA. In order to enhance the energy efficiency by 38.7%, the heterogeneous learning core architecture is optimized with the 11-stage pipeline data-path. Furthermore, the direct error propagation core utilizes random number generators to remove external memory access caused by error propagation and improve the energy efficiency by 19.9%. The DF-LNPU is evaluated on the object tracking application, and as a result, it shows 34.4 frames-per-second throughput with 1.32 TOPS/W energy efficiency. The second processor, HNPU, realizes energy-efficient DNN training by focusing on general-purpose DNN training. It supports stochastic dynamic fixed-point representation and layer-wise adaptive precision searching unit for low-bit-precision training. It additionally utilizes slice-level reconfigurability and sparsity to maximize its efficiency both in DNN inference and training. Adaptive-bandwidth reconfigurable accumulation network enables reconfigurable DNN allocation and maintains its high core utilization even in various bit-precision conditions. Fabricated in a 28nm process, the HNPU accomplished at least 5.9 × higher energy efficiency and 2.5 × higher area efficiency in general DNN training benchmark such as ImageNet compared with the previous state-of-the-art on-chip learning processors.

딥러닝은 AI 어플리케이션의 핵심이며 사용처가 점점 더 다양해 지고 있습니다. 하지만 초창기 딥러닝은 요구하는 알고리즘이 요구하는 방대한 연산량 때문에 클라우드 서버에서 주로 가속되었고, 모바일 장치에서 AI 어플리케이션을 수행하기 위해서는 서버에서 추론한 결과를 받는 수동적인 형태만 가능했습니다. 딥러닝 이 주된 흐름이 된 현재는 많은 에지/모바일 장치자체가 가지고 있는 DNN 가속기를 통해 빠르고 효율적인 심층신경망 추론이 가능해졌습니다. 하지만 이미 학습된 모델을 추론만 하는 수동적인 사용에 국한되어, AI 가 개별 사용자나 서비스 환경과 능동적으로 상호작용하는 고차원의 딥러닝 어플리케이션 활용은 여전히 어렵습니다. 온디바이스 심층신경망 훈련은 AI 어플리케이션의 수준을 한단계 끌어올릴 수 있는 솔루션으로 주목받고 있지만 심층신경망 훈련은 추론보다 구현 조건이 까다로워 모바일/에지 기기에서 구현하기는 어려웠습니다. 이 논문에서는 알고리즘-하드웨어 공동 설계를 채택하여 에너지 효율적인 두 개의 DNN 훈련 프로세서, 특정 어플리케이션 가속에 집중한 DF-LNPU와 범용 학습 프로세서로 설계한 HNPU를 제안합니다. 첫 번째 DNN 훈련 프로세서인 DF-LNPU는 DFA(Direct Feedback Alignment)를 사용하여 제안됩니다. 제안된 프로세서는 파이프라인 DFA에 의해 이전 프로세서에 비해 2.2배 더 빠른 DNN 훈련 속도를 달성합니다. 이기종 학습 코어 아키텍처를 채택, 11단계 파이프라인을 구성하여 에너지 효율을 38.7% 향상시켰습니다. 또한 직접 오류 전파 코어는 난수 생성기를 사용하여 오류 전파로 인한 외부 메모리 액세스를 제거하고 에너지 효율을 19.9% 향상시킵니다. DF-LNPU는 객체 추적 애플리케이션에 최적화하여 1.32 TOPS/W 에너지 효율로 초당 34.4 프레임의 처리량을 달성하였습니다. 두 번째 프로세서인 HNPU는 범용 DNN 학습에 집중하여 에너지 효율적인 DNN 훈련을 구현하였습니다. 낮은 비트 정밀도 훈련을 위한 확률적 동적 고정 소수점 표현 및 계층별 적응 정밀도 검색 장치를 지원합니다. 또한 슬라이스 수준 재구성 가능성과 희소성을 활용하여 DNN 추론 및 학습 모두에서 효율성을 극대화하였습니다. 적응형 대역폭 재구성 가능한 누적 네트워크는 재구성 가능한 DNN 할당을 가능하게 하고 다양한 비트 정밀도 조건에서도 높은 코어 활용도를 유지합니다. 28nm 공정으로 제작된 HNPU는 이전의 최첨단 온칩 학습 프로세서와 비교하여 ImageNet과 같은 일반적인 DNN 학습 벤치마크에서 최소 5.9배 더 높은 에너지 효율성과 2.5배 더 높은 면적 효율성을 달성했습니다.

서지기타정보

서지기타정보
청구기호 {DEE 23052
형태사항 xviii, 278 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한동현
지도교수의 영문표기 : Hoi-Jun Yoo
지도교수의 한글표기 : 유회준
수록잡지명 : "HNPU: An Adaptive DNN Training Processor Utilizing Stochastic Dynamic Fixed-Point and Active Bit-Precision Searching". IEEE Journal of Solid-State Circuits, v.56.Issue.9, pp.2858-2869(2021)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 253-266
주제 Deep learning
On-device training
Fixed-point
ASIC
Bit-slice
Sparsity exploitation
TRNG
Weight pruning
Backward locking
Direct feedback alignment
심층신경망
온-디바이스 학습
고정소수점
반도체
비트-슬라이스
희소성 활용
순수난수생성기
가중치 가지치기
역방향 잠금
직접 오류 전사
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서