서지주요정보
Super Floating-Point (SuFP): Multi-region piecewise quantization with scalable bias = 다중 구역 정밀도를 가진 확장 가능한 바이어스를 이용한 양자화 기법
서명 / 저자 Super Floating-Point (SuFP): Multi-region piecewise quantization with scalable bias = 다중 구역 정밀도를 가진 확장 가능한 바이어스를 이용한 양자화 기법 / Geonwoo Ko.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042172

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24060

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Deep Neural Networks (DNNs) are transforming numerous fields, but as they do so, the size of these models and their computational requirements are also growing at an exponential rate. In response to these challenges, various quantization techniques have emerged as highly effective solutions. However, quantization methods using conventional data types, including integer or floating-point, face certain limitations in balancing between accuracy drop and computational benefit. In light of the advent of hardware accelerator design for AI processing, quantization research has entered a new phase: custom data types and specialized hardware have emerged as innovative alternatives. Particularly, piecewise quantization and block floating-point quantization exhibit notable performance and efficiency improvements, but they still suffer from handling outliers with huge dynamic ranges. To solve this issue, we introduce Super Floating-Point (SuFP), a breakthrough data type and quantization method that improves both memory footprint and logic efficiency without compromising model accuracy. The key idea of SuFP is multi- region piecewise quantization using a tensor-wise scalable bias. It can configure an optimized precision for each region to capture both dense near-zero data and outliers. In addition, the scalable bias offers flexible adaptability to diverse data distributions, requiring only a single addition operation at the tensor level. Furthermore, the tailored hardware for SuFP employs only integer arithmetic units and shifters, facilitating a highly compact hardware realization. Our experimental results show that SuFP quantization achieves accuracy performance on par with, and in some cases even exceeds, that of full precision floating-point (FP32) across vision, language, and generative model benchmarks. Its computational capability and energy efficiency have shown improvements, with a 9.00× and 17.04× enhancement over FP32 implementations. These improvements are notable when compared to state-of-the-art MSFP and BSFP, which show up to 7.20× and up to 8.27×, respectively.

딥 뉴럴 네트워크(DNN)가 다양한 응용 분야에서 혁신을 가져오면서, 그 모델의 크기와 필요한 계산 능력도 기하급수적으로 증가하고 있다. 이에 대응하기 위해, 다양한 양자화 기술이 매우 효과적인 해결책으로 부각 되고 있다. 그러나, 정수형이나 부동소수점과 같은 기존의 데이터 타입을 사용하는 양자화 기법들은 정확도 감소와 계산상의 이점 사이의 균형을 맞추는 데 있어 한계가 있다. 이러한 상황에서, DNN 연산을 위한 하드웨어 가속기의 등장으로 양자화 연구는 커스텀 데이터 타입과 특화된 하드웨어를 통한 혁신적 대안으로 새로운 단계에 접어들었다. 특히, 조각별 양자화와 블록 부동소수점 양자화는 뛰어난 성능 향상과 효율성 개선을 보여주고 있지만, 큰 동적 범위를 가진 이상치를 처리에는 여전히 어려움이 있다. 이를 해결하기 위해, Super Floating-Point (SuFP), 즉 모델 정확도를 유지하면서 메모리 사용량과 로직 효율성을 모두 개선하는 혁신적인 데이터 타입 및 양자화 방법을 제안한다. SuFP의 핵심은 텐서별 확장 가능한 바이어스 를사용하는다중영역조각별양자화이다. 이는0근처의밀집데이터와이상치모두를포착하기위해각 영역에 최적화된 정밀도를 제공한다. 또한, 확장 가능한 바이어스는 다양한 데이터 분포에 유연하게 적응할 수 있고, 텐서 수준에서 단일 덧셈 연산만을 필요로 한다. SuFP를 위한 맞춤형 하드웨어는 정수 산술 유닛과 시프터만을 사용하여 컴팩트한 하드웨어 구현을 가능하게 한다. 우리의 실험 결과는 SuFP 양자화가 시각, 언어 및 생성 모델 벤치마크에서 전체 정밀도 부동소수점(FP32)과 동등하거나 경우에 따라 그 이상의 정확 도 성능을 달성한다는 것을 보인다. 또한 SuFP 의 계산 능력과 에너지 효율성은 FP32 구현에 비해 9.00× 및 17.04×의 개선을 보여주며, 이는 MSFP 및 BSFP와 비교하여 각각 최대 7.20× 및 최대 8.27×의 향상을 보인다.

서지기타정보

서지기타정보
청구기호 {MEE 24060
형태사항 iv, 34 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 고건우
지도교수의 영문표기 : Joo-Young Kim
지도교수의 한글표기 : 김주영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 28-32
주제 Post-training quantization
Piecewise quantization
Block floating-point quantization
Hardware friendly data type
훈련 후 양자화
조각별 양자화
블록 부동소수점 양자화
하드웨어 친화적 데이터 타입
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서