서지주요정보
NASH: on structured pruning for encoder-decoder language models = 인코더 디코더 언어모델 경량화를 위한 구조적 가지치기
서명 / 저자 NASH: on structured pruning for encoder-decoder language models = 인코더 디코더 언어모델 경량화를 위한 구조적 가지치기 / Seungjoon Park.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041173

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23056

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Even though generative language models are getting popular, previous pruning studies only focused on the pruning for encoder-only models rather than generative language models. This paper investigates the considerations for structured pruning on encoder-decoder models, one of the generative language models. First, we demonstrate that the straightforward application of existing structured pruning methods to encoder-decoder models is ineffective regarding inference acceleration. In addition, we suggest two design philosophies to be considered when applying structured pruning to the encoder-decoder models: 1) the decoder depth and encoder width are the essential factor for accelerating inference and enhancing output quality, respectively 2) mitigating the training instability is important. Based on the philosophies, we propose a novel framework called NASH\,(NArrow encoder SHallow decoder) to accelerate inference of the encoder-decoder model. Extensive experiments on diverse generation and inference tasks validate the effectiveness of our method in both speedup and output quality. NASH offers a practical and efficient solution for accelerating encoder-decoder language models, enhancing their deployability in resource-constrained environments.

최근 생성형 언어 모델의 활용이 많아짐에도 불구하고, 대부분의 기존 가지치기 연구들은 인코더 모델에 대한 가지치기만을 고려했다. 이 논문에서 우리는 생성형 언어 모델 중 하나인 인코더 디코더 언어 모델에 구조적 가지치기를 적용할 때의 고려 사항을 연구한다. 먼저 우리는 인코더 언어 모델에만 적용되었던 구조적 가지치기 방법론을 인코더 디코더 언어 모델에 단순 적용하는 것은 추론 속도 향상 측면에서 비효율적임을 보인다. 그리고 다양한 모델 구성 요소 중 추론 속도와 성능 향상에 중요한 요소가 각각 디코더의 깊이와 인코더의 폭임을 발견한다. 이러한 관찰로부터 우리는 인코더 디코더 언어 모델의 추론 가속화를 위한 새로운 가지치기 프레임워크를 제안한다. 우리는 방법론을 다양한 사이즈, 언어, 목적을 가진 과제에 적용하였으며, 우리의 방법론은 작은 사전 학습 언어 모델이나, 인코더에 적용한 기존 방법론을 단순 적용하는 것보다 더 빠른 추론과 높은 성능 두 가지 목표를 동시에 이뤄 낼 수 있다. 제안 방법론은 효율적으로 인코더 디코더 모델의 추론 가속를 이루어 낼 수 있으며, 연산 자원이 제한된 환경에서 언어 모델의 사용성을 향상시킨다.

서지기타정보

서지기타정보
청구기호 {MAI 23056
형태사항 v, 30 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 박승준
지도교수의 영문표기 : Seyoung Yun
지도교수의 한글표기 : 윤세영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 25-28
주제 Natural language processing
Language model
Model compression
Pruning
자연어처리
언어 모델
경량화
가지치기
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서