서지주요정보
Energy efficient processors and In-DRAM processing framework for deep convolutional neural network = 에너지 효율적인 심층 컨볼루셔널 신경망 프로세서 및 DRAM 내부 연산 프레임워크
서명 / 저자 Energy efficient processors and In-DRAM processing framework for deep convolutional neural network = 에너지 효율적인 심층 컨볼루셔널 신경망 프로세서 및 DRAM 내부 연산 프레임워크 / Jaehyeong Sim.
저자명 Sim, Jaehyeong ; 심재형
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033362

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DEE 19043

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

Recent deep convolutional neural networks (CNNs) are outperforming conventional hand-crafted algorithms in a wide variety of intelligent vision tasks, but they require billons of operations and hundreds million of weights. To process large-scale CNNs energy-efficiently, three generations of CNN hardware are designed in this dissertation. The first two generations are CNN processors based on the conventional Von Neumann architecture, and the third generation CNN hardware is based on in-DRAM processing framework that does not obey Von Neumann architecture. The first generation primitive CNN processor integrates dual-range multiply-accumulate (MAC) blocks by exploiting the statistics of input feature values to reduce energy consumption of MAC operations. Also, tile-based computing method is proposed in the primitive CNN processor. In result, it achieves 1.42TOPS/W energy efficiency in the LeNet-5 CNN model. The second generation advanced CNN processor operates at near-threshold voltage (NTV) to reduce energy consumption furthermore. It also features a newly proposed enhanced output stationary dataflow (EOS) and two-stage big and small on-chip memory architecture, resulting in up to 1.15TOPS/W energy efficiency in the VGG-16 model. Finally, the third generation in-DRAM processing binary CNN hardware processes dominant convolution operations by serially cascading in-DRAM bulk bitwise operations. To this end, we first identify the problem that the bitcount operations with only bulk bitwise AND/OR/NOT incur significant overhead in terms of delay when the size of kernels gets larger. Then, we not only optimize the performance by efficiently allocating inputs and kernels to DRAM banks for both convolutional and fully-connected layers through design space explorations, but also mitigate the overhead of bitcount operations by splitting kernels into multiple parts. Partial sum accumulations and tasks of the other layers such as max-pooling and normalization layers are processed in the peripheral area of DRAM with negligible overheads. In results, our in-DRAM binary CNN processing framework achieves 19x-36x performance and 9x-14x EDP improvements for convolutional layers, and 9x-17x performance and 1.4x-4.5x EDP improvements for fully-connected layers over previous PIM technique in four large-scale CNN models. Also, it shows 3.796TOPS/W energy efficiency in AlexNet CNN model.

다양한 인공 지능 어플리케이션에서 최신 심층 컨볼루셔널 신경망이 기존의 비전 알고리즘을 정확도 측면에서 능가하고 있다. 하지만 심층 컨볼루셔널 신경망은 매우 많은 연산량과 메모리를 요구하기 때문에, 이를 처리하기 위한 별도의 전용 프로세서 설계가 필요하다. 본 논문에서는 전통적인 폰 노이만 구조에 기반한 컨볼루셔널 신경망 프로세서 2개와 폰 노이만 구조를 따르지 않는 DRAM 내부 프로세싱 프레임워크 1개에 대한 설계 내용을 다룬다. 1세대 컨볼루셔널 신경망 프로세서는 입력 특징점 값들의 분포를 활용하여 이중 영역 단일 곱셈-누산기 블록을 설계하여 곱셈-누산 연산의 에너지 소모량을 줄였고, 타일 기반의 연산 방식이 제안되었다. 이를 통해 작은 크기의 신경망에서 1.42TOPS/W의 에너지 효율성을 보였다. 2세대 컨볼루셔널 신경망 프로세서는 유사 문턱 전압에서 동작하여 에너지 소모량을 더욱 줄였다. 또한 개선된 데이터 흐름을 새롭게 제안하고 이단 빅/스몰 메모리 구조를 특징으로 하여 큰 크기의 신경망에서 1.15TOPS/W의 에너지 효율성을 보인다. 마지막으로 3세대 DRAM 내부 이진 CNN 프로세싱 하드웨어는 DRAM 내부에서 일어나는 대규모 비트 단위 연산을 반복적으로 수행하는 방식으로 컨볼루션 연산을 처리한다. 이를 위해 본 논문에서는 오로지 비트 단위 연산으로만 누적 덧셈 연산을 수행하면 커널 크기가 커짐에 따라 지연 시간이 크게 늘어난다는 문제를 발견한다. 그리고 이를 해결하기 위해 커널을 여러 작은 부분으로 나누고, 디자인 공간 탐색을 통해 컨볼루셔널 또는 전결합 층 모두에 대해 입력과 커널을 DRAM 뱅크들에 최적의 모양으로 분배함으로써 성능을 최적화 하였다. 부분합 덧셈이나 풀링, 정규화 등과 같은 다른 층 연산들은 DRAM의 주변회로부에서 추가 비용이 거의 없이 처리가 가능하다. 그 결과 본 DRAM 내부 이진 CNN 처리 프레임워크는 컨볼루셔널 층에 대해 19배에서 36배의 성능 개선, 9배에서 14배의 EDP 개선을 얻었으며 전결합 층에 대해서는 9배에서 17배의 성능 개선, 1.4배에서 4.5배의 EDP 개선을 이루었다. 또한 이는 AlexNet을 처리하는 데에 3.796TOPS/W의 에너지 효율성을 보인다.

서지기타정보

서지기타정보
청구기호 {DEE 19043
형태사항 vii, 84 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 심재형
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 76-80
주제 Deep learning
deep convolutional neural network
enegy efficient processor
In-DRAM processing
processing in-memory
딥 러닝
심층 컨볼루셔널 신경망
에너지 효율적인 프로세서
DRAM 내부 연산
메모리 내부 연산
QR CODE qr code