서지주요정보
Accelerating text generation by minimizing memory transfer in attention mechanism = 어텐션 메커니즘의 메모리 전송 최소화를 통한 텍스트 생성 가속
서명 / 저자 Accelerating text generation by minimizing memory transfer in attention mechanism = 어텐션 메커니즘의 메모리 전송 최소화를 통한 텍스트 생성 가속 / Junyoung Park.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 비공개원문

소장정보

등록번호

8042189

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24077

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Text generation models based on autoregressive transformer models have been instrumental in advancing applications such as chatbot systems and virtual assistants. When the model generates text with multiple batching, the key/value pairs used in the attention mechanism cannot be shared, thus leading to prolonged execution time. As the attention mechanism is memory bounded, off-chip memory accesses should be minimized for faster execution. Although previous methods reduced the off-chip memory accesses regarding unimportant tokens, they fall short in selectively removing the negligible tokens in each instance. Rather, this dissertation estimates the weight using bit chunks of K vectors, effectively removing the memory accesses for low weight tokens and achieving an $12.1x$ pruning ratio without fine-tuning. Additionally, this dissertation present consecutive bit chunk request that prevents the underutilization of Processing Elements (PEs) induced by on-demand DRAM access. Finally, a dedicated hardware equipped with PEs and auxiliary modules is designed, which supports the proposed methods. As a result, it shows $2.6x$ reduced memory accesses, leading to an average $2.3x$ speedup and a $2.4x$ energy efficiency.

자동 회귀 트랜스포머 기반 텍스트 생성 모델은 챗봇 시스템, 가상 비서와 같은 어플리케이션을 발전시키는 데 중요한 역할을 하고있다. 모델이 여러 요청들을 배칭하여 텍스트를 생성할 때, 어텐션 메커니즘에서 사용되는 키/밸류 쌍들은 공유되지 않고, 이것은 지연된 실행시간을 유발한다. 어텐션 메커니즘은 메모리 성능에 의해 병목현상이 나타내므로, 더 빠른 실행을 위해서는 오프-칩 메모리 접근이 최소화 되어야 한다. 이전 방법들은 중요하지 않은 토큰들을 제거하는 방식을 제안하였지만, 각 인스턴스에서 0에 가까운 어텐션 가중치를 가진 토큰들을 선택적으로 제거하지 못해 비효율성이 나타난다. 본 학위 논문에서는 소프트맥스 함수 전에 키 벡터의 일부 비트 만으로 토큰의 가중치를 추정함으로써, 낮은 가중치를 가진 토큰들을 효과적으로 제거하고, 추가적인 미세 조정 없이 12.1배의 토큰 제거 비율을 달성할 수 있었다. 또한, 필요할 때마다 데이터를 접근할 때 발생하는 접근 지연시간을 효과적으로 감추는 방법을 제안하였다. 마지막으로, 이러한 최적화를 뒷받침하는 하드웨어를 설계하였다. 결과적으로, 본 연구는 알고리즘의 성능을 유지한 채 메모리 접근을 평균적으로 2.6배 줄이며, 평균 2.3배의 속도 향상과 2.4배의 에너지 효율성을 보여준다.

서지기타정보

서지기타정보
청구기호 {MEE 24077
형태사항 iv, 38 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박준영
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 33-35
주제 Transformer architecture
text generation
attention mechanism
AI accelerator design
Out-of-order processing
트랜스포머 구조
텍스트 생성
어텐션 메커니즘
인공지능 가속기 디자인
비순차적 실행
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서