서지주요정보
Let it reuse : a multi-mode sparse attention inference accelerator with a unified multi-precision datapath = 통합된 다중 정밀도 데이터 연산을 통한 다중 모드 희소 어탠션 추론 가속기
서명 / 저자 Let it reuse : a multi-mode sparse attention inference accelerator with a unified multi-precision datapath = 통합된 다중 정밀도 데이터 연산을 통한 다중 모드 희소 어탠션 추론 가속기 / Unhak Yeo.
발행사항 [대전 : 한국과학기술원, 2022].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8039862

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 22131

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Transformer-based models are rapidly emerging in various fields of DNNs. Therefore, accelerators for the self-attention mechanism, a bottleneck of the transformer, are actively studied today. However, for real-world accelerators, not only high performance but also generality and flexibility are necessary. First, because the required precision and datatype of each task are different, the accelerators should generally support multi-precision. Second, because the required accuracy, energy, and latency change depend on the scenarios, the accelerators should flexibly support the multi-mode without severe HW underutilization. Real-world accelerators need to deliver high performance even under the aforementioned functionalities. This paper shows that the prior design framework has reached its limit in terms of computational savings. This paper presents an interpretable design framework called "Let It Reuse." To effectively utilize this framework and satisfy real-world constraints, it takes a co-optimization approach, including an algorithm, architecture and microarchitecture. In detail, this paper proposes a multi-mode aware pipeline with a unified multi-precision datapath and explores reusability according to the datatype. As an experiment of the Question & Answering task, the Let It Reuse Accelerator improves the geomean speedup by 24 times and 4 times, respectively, compared to a GPU, an up-to-date Nvidia ampere architecture, and Sanger, a state-of-the-art attention accelerator.

트랜스포머 기반 모델은 최근 다양한 인공지능 신경망에서 주목받았다. 따라서 그 중 가장 병목 연산인 셀프 어텐션 메커니즘을 가속하는 연구가 활발히 진행되었다. 하지만 실제 가속기에서는 높은 성능만이 아니라 일반성과 유연성이 필요하다. 첫번째, 요구되는 정확도와 데이터 종류가 각 어플리케이션마다 다르기 때문에 가속기들은 다중 정밀도를 일반적으로 지원해야한다. 두번째, 요구되는 정확도, 에너지, 지연시간이 시나리오에 따라 변하기 때문에 다중 모드를 하드웨어 저하 없이 유연하게 지원해야한다. 현실에서 활용되는 가속기는 앞서 언급한 기능을 유지하면서도 높은 성능이 요구된다. 본 논문은 기존 디자인 프레임워크가 연산량 감소 측면에서 한계에 다다랐다는 것을 지적한다. 본 논문은 해석가능한 디자인 프레임워크인 “재사용하자”를 제안한다. 본 프레임워크를 효율적으로 활용하고, 현실적인 제약사항을 만족하기 위해서 알고리즘, 아키텍쳐, 마이크로 아키텍쳐를 동시에 최적화한다. 더 자세하게는 다중 모드를 고려한 파이프라인과 통합된 다중 정밀도 연산을 제안한다. 또한 재활용성을 데이터 타입에 따라 탐색한다. 묻고 답하기의 실험에서 본 가속기는 최신 범용 프로세서 대비 24배, 최신 전용 프로세서 대비 4배 빨리 연산할 수 있다.

서지기타정보

서지기타정보
청구기호 {MEE 22131
형태사항 iv, 34 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 여운학
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 25-31
주제 Transformer
Self-attention Mechanism
Sparse
Multi-mode
Multi-precision
Co-optimization
트랜스포머
셀프 어텐션 메커니즘
희소성
멀티 모드
멀티 정확도
통합 최적화
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서