서지주요정보
SAL-PIM: a subarray-level processing-in-memory architecture for accelerating end-to-end generative transformer with LUT-based linear interpolation = 생성 트랜스포머의 종단간 가속을 위한 룩-업 테이블 기반 선형 보간을 이용하는 서브어레이-레벨 프로세싱-인-메모리 구조
서명 / 저자 SAL-PIM: a subarray-level processing-in-memory architecture for accelerating end-to-end generative transformer with LUT-based linear interpolation = 생성 트랜스포머의 종단간 가속을 위한 룩-업 테이블 기반 선형 보간을 이용하는 서브어레이-레벨 프로세싱-인-메모리 구조 / Wontak Han.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040803

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 23097

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Text generation is one of the representative applications that employ machine learning. Various deep-learning models have been presented and studied for text generation, but transformer-based models show state-of-the-art accuracy currently. Among the models, the transformer-decoder-based generative model, such as the generative pretrained model (GPT), has two stages in text generation: summarization and generation. The generation stage is a memory-bound operation, unlike the summarization stage, due to its sequentially operating feature. Therefore, accelerators based-processing-in-memory (PIM) have been suggested many times to address the von-Neumann bottleneck. However, existing PIM accelerators utilize limited memory bandwidth or cannot accelerate the entire model. The SAL-PIM is the first PIM architecture to accelerate the end-to-end transformer-decoder-based generative model. With an optimized mapping scheme, SAL-PIM utilizes higher bandwidth using the subarray-level arithmetic logic unit (S-ALU). To minimize area overhead for S-ALU, S-ALU uses shared MACs utilizing slow clock frequency of commands for the same bank. In addition, in order to support vector functions in PIM, the DRAM cells are used as a look-up table (LUT), and the vector functions are computed by linear interpolation. Then, an LUT-embedded subarray is proposed to optimize LUT operation in DRAM. Lastly, the channel-level arithmetic logic unit (C-ALU) performs the accumulation and reduce-sum operations of data and enables end-to-end inference on PIM. We implemented SAL-PIM on the TSMC 28-nm CMOS technology and scaled it to DRAM technology to verify the feasibility of SAL-PIM. SAL-PIM has a 23.43% additional area overhead compared to the original DRAM, which is smaller than the threshold mentioned in previous work. As a result, the SAL-PIM architecture achieves a maximum of 73.17x speedup on the GPT-2 medium model and an average of 27.74x speedup using the SAL-PIM simulator for text generation compared to GPU.

텍스트 생성은 머신러닝을 활용하는 대표적인 어플리케이션 중 하나이다. 텍스트 생성을 위해 다양한 딥 러닝 모델이 제시되고 연구되어왔지만, 트랜스포머 모델은 현재 최고의 정확도를 보이고 있다. 트랜스포머 모델 중 생성 사전 훈련 모델 (GPT)와 같은 트랜스포머-디코더 기반 생성 모델은 텍스트 생성에서 요약과 생성 단계를 갖는다. 생성 단계는 순차적으로 동작하는 특성 때문에 요약단계와 달리 메모리-바운드 연산이다. 따라서, 폰 노이만 병목 현상을 해결하기 위해 여러 프로세싱-인-메모리 (PIM)가 제안되어 왔다. 그러나 기존 프로세싱-인-메모리 가속기는 제한된 메모리 대역폭만을 활용하거나 전체 모델을 가속할 수 없다는 단점을 갖는다. 이 논문에서 제시하는 프로세싱-인-메모리 구조(SAL-PIM)는 종단 간 트랜스포머-디코더 기반 생성모델을 가속할 수 있다는 최초의 프로세싱-인-메모리 구조이다. 이 구조는 서브어레이 레벨 산술 논리 유닛을 사용하여 더 높은 대역폭을 사용한다. 서브어레이 레벨 산술 유닛의 면적을 최적화 하기 위해, 같은 뱅크에 접근하는 커맨드의 클럭 속도가 느림을 활용한 공유된 MAC 유닛을 사용하였다. 그리고, 프로세싱-인-메모리에서 벡터 함수를 지원하기 위해 디램 을 룩-업 테이블로서 활용하고, 벡터 함수는 선형 보간법으로 계산한다. 그 후, 디램에서 룩-업 테이블 동작을 최적화하기 위한 룩-업 테이블 서브어레이 구조를 제안한다. 또한, 채널 레벨 산술 논리 유닛은 데이터에 대한 누적 및 합계 함수를 지원하여 프로세싱-인-메모리에서 종단 간 추론을 가능하게 한다. 마지막으로 이 논문은 멀티 채널, 멀티 뱅크 및 멀티 서브어레이에 대한 데이터 매핑 방식을 제시한다. TSMC 28-nm CMOS 공정에서 SAL-PIM 구조를 구현하고 디램 공정으로 확장시켜 검증하고 SAL-PIM의 실현 가능성을 증명하였다. SAL-PIM은 원래 디램보다 23.43%의 추가 면적을 필요로 하지만, 그 수치는 임계치보다 낮다. 결과적으로 SAL-PIM 구조는 GPT-2 중간 모델에서 SAL-PIM 시뮬레이터를 사용하여 측정한 결과 GPU와 비교하였을 때, 최대 73.17배의 속도 상승을 얻었고, 평균 27.74배의 속도 상승을 달성하였다.

서지기타정보

서지기타정보
청구기호 {MEE 23097
형태사항 iv, 26 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 한원탁
지도교수의 영문표기 : Joo-Young Kim
지도교수의 한글표기 : 김주영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 22-24
주제 Processing-in-memory
DRAM
Transformer
Text generation
프로세싱-인-메모리
디램
트랜스포머 모델
텍스트 생성
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서