서지주요정보
Efficient NLP executions by exploiting redundancies in transformer-based language models = 트랜스포머 기반 자연어 모델의 불필요한 중복성을 활용한 효율적인 자연어 처리
서명 / 저자 Efficient NLP executions by exploiting redundancies in transformer-based language models = 트랜스포머 기반 자연어 모델의 불필요한 중복성을 활용한 효율적인 자연어 처리 / Myeonggu Kang.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8042626

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 24014

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recently, along with significant advancements in algorithm performance, transformer-based language models have gained considerable prominence as de facto standard models in natural language processing (NLP) applications. These transformer-based language models possess deeper and more extensive structures compared to traditional deep neural network (DNN) models, necessitating a larger number of weight parameters and computational resources. It leads to substantial energy consumption and execution times when running transformer-based language models on resource-constrained mobile devices, ultimately limiting their practical usability. As a result, this thesis delves into the research of methods to efficiently operate transformer-based language models on diverse hardware platforms. To achieve this, this thesis initially demonstrates the presence of inherent redundancies in the execution of transformer-based language models based on tasks or input sentences. Among several inherent redundancies, this thesis particularly focuses on addressing 1. redundant self-attention operations, 2. redundant parameters within multi-task NLP models, and 3. the repetitiveness in decoder operations during word generation. The objective is to enable efficient execution of natural language processing applications. To utilize the inherent redundancies, the following approaches are proposed. Firstly, to mitigate redundant self-attention operations, an window-based self-attention mechanism is introduced by analyzing the characteristics of NLP applications. This approach significantly reduces the computational load of self-attention operations while maintaining algorithm performance. Secondly, to alleviate the problem of redundant parameters in multi-task NLP models, a strategy involving base-model sharing across multiple tasks and compression of task-specific parameters is suggested. This approach notably reduces the number of parameters required for running multi-task NLP models. Lastly, to reduce repetitive computations during word generation, a token-adaptive early exit technique is proposed. This technique effectively decreases the required number of transformer layers for each output word. Through these techniques, this research successfully mitigates the inherent redundancies within transformer-based language models, enabling the efficient execution of NLP applications while maintaining the algorithm performances.

최근 알고리즘 성능의 비약적인 발전과 함께 트랜스포머 기반 자연어 모델은 자연어 처리 어플리케이션에서 주요한 표준 모델로 각광받게 되었다. 이러한 트랜스포머 기반의 자연어 모델은 전통적인 심층 신경망 모델보다 깊고 넓은 구조를 가지고 있기 때문에 많은 웨이트 파라미터와 연산량을 요구하게 된다. 이는 자원이 제한된 모바일 기기에서 트랜스포머 기반 자연어 모델을 실행할 때 매우 큰 에너지 소모와 실행 시간을 초래하며 자연어 모델의 사용을 제한하게 된다. 따라서 본 학위 논문에서는 트랜스포머 기반 자연어 모델을 다양한 하드웨어 플랫폼에서 알고리즘 성능에 영향을 주지 않으면서 효율적으로 구동할 수 있는 방법에 대해 연구를 진행하였다. 이를 위하여 먼저 트랜스포머 기반 자연어 모델을 실행할 때, 구동하는 작업 혹은 입력 문장에 따라서 내재적인 중복성이 존재함을 보였다. 여러 내재적인 중복성 중 본 학위 논문에서는 1. 불필요한 셀프 어텐션 연산, 2. 다중 작업 트랜스포머의 중복적인 파라미터 문제, 3. 단어 생성 단계에서 발생하는 반복적인 디코더 연산의 중복성 문제를 집중적으로 해결하여 효율적인 자연어 처리 어플리케이션 실행을 가능케 하고자 하였다. 이러한 내재적인 중복성을 해결하기 위하여 본 학위 논문에서는 다음과 같은 방법을 제안하였다. 첫 번째로 셀프 어텐션 연산의 중복적인 연산을 완화하기 위하여, 자연어 처리 어플리케이션의 특징을 분석하여 연산 창 기반 셀프 어텐션을 제안하였다. 제안 된 방법은 알고리즘 성능을 유지하면서 셀프 어텐션 연산량을 크게 감소시킬 수 있었다. 두 번째로, 다중 작업 트랜스포머의 중복적인 파라미터 문제를 완화하기 위하여, 다중 작업 간 기본 모델 공유 및 작업 별 파라미터의 압축을 제안하였다. 제안된 방법은 다중 작업 트랜스포머를 실행할 때에 필요한 파라미터의 수를 크게 감소시킬 수 있었다. 마지막으로 단어 생성 단계에서 발생하는 반복적인 연산을 줄이기 위하여 생성하는 토큰 별 연산 조기 종료 기법을 제안하였다. 이를 통하여 생성하는 단어 별로 필요한 트랜스포머 레이어 수를 효과적으로 감소시킬 수 있었다. 본 연구를 통해 트랜스포머 기반 자연어 모델에서 내재한 중복성을 제거할 수 있었으며, 이를 통하여 알고리즘 성능의 하락 없이 효율적인 자연어 처리 어플리케이션의 실행이 가능하게 되었다.

서지기타정보

서지기타정보
청구기호 {DEE 24014
형태사항 vii, 87 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강명구
지도교수의 영문표기 : Lee-Sup Kim
지도교수의 한글표기 : 김이섭
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 79-85
주제 DNN accelerator
Natural language processing applications
Transformer-based language model
딥-뉴럴 네트워크 가속기
자연어처리
트랜스포머 기반 자연어 모델
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서