(A) sparse-dense GEMM accelerator based on row-wise product for memory-efficient graph convolutional neural networks = 메모리 효율적인 그래프 합성곱 신경망 가속을 위한 행별 곱 기반 희소-밀집 행렬 곱셈 가속기
서명 / 저자 (A) sparse-dense GEMM accelerator based on row-wise product for memory-efficient graph convolutional neural networks = 메모리 효율적인 그래프 합성곱 신경망 가속을 위한 행별 곱 기반 희소-밀집 행렬 곱셈 가속기 / Minhoo Kang.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄





학술문화관(도서관)2층 학위논문

MEE 22015

휴대폰 전송







Graph Convolutional Neural Networks (GCNs) has emerged as one of the powerful methods of representing a relationship between input data based on Deep Neural Network (DNN). GCN is consists of aggregation and combination. Because of the heterogeneous characteristics of these phases, general computing resources (CPU, GPU) do not achieve sufficient performance. Prior works proposed hardware architectures to accelerate GCN inference, but they still suffer memory-limited characteristics of GCN, because of 2D tiling’s inefficient dataflow and data reuse. This thesis proposes a tile-free sparse matrix for sparse-dense GEMM and to employ the row-wise product to eliminate disadvantages of 2D tiling. Also, this thesis proposes a data reuse strategy to support row-wise dataflow and micro-architectures to maximize memory-level parallelism and hardware utilization. This thesis implements cycle-accurate simulators and test on wide-range real-world graph datasets for evaluation. The proposed architecture achieves 2× reduction of off-chip memory access, 2.8× speedup, and 2.3× energy-efficiency compared to the prior GCN accelerator, GCNAX.

그래프 합성곱 신경망은 인공 신경망을 기반으로 데이터간의 상호 관계를 표현하는 방법 중 하나로 주목받고 있다. 그래프 합성곱 신경망은 집계 단계와 조합 단계로 구성되는데, 이 두 단계의 상이한 특성으로 인해 범용 연산 자원으로는 처리에 어려움을 겪고 있다. 앞선 연구에서 그래프 합성곱 신경망을 가속하기 위한 아키텍쳐들을 제안했지만, 여전히 2차원 타일링이라는 비효율적인 연산 흐름과 데이터의 재사용으로 인해 메모리 제한적인 특성을 띄고 있다. 본 논문에서는 앞선 연구에서 사용되는 2차원 타일링의 단점을 해소할 수 있는 연산 흐름으로써 희소-밀집 행렬 곱셈 시 희소 행렬에 대한 2차원 타일링을 하지 않고 행별 곱을 할 것을 제안한다. 또한 행별 곱을 사용함에 따른 데이터 재사용 기법과 메모리 접근을 병렬적으로 처리해 연산 장치의 활용성을 높일 수 있는 마이크로 아키텍쳐를 제시한다. 실험을 위해 사이클-수준 시뮬레이터를 작성하여 넓은 범위의 그래프 데이터셋을 대상으로 검증하였다. 본 논문에서 제안한 아키텍쳐는 앞선 연구인 GCNAX에 비해 2배 적은 메모리 접근, 2.8배 빠른 성능, 2.3배 적은 에너지 소모를 달성하였다.


청구기호 {MEE 22015
형태사항 iv, 28 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강민후
지도교수의 영문표기 : Minsoo Rhu
지도교수의 한글표기 : 유민수
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 25-27





이 주제의 인기대출도서