서지주요정보
Class token knowledge distillation for efficient vision transformer = 효율적인 비전 트랜스포머를 위한 클래스 토큰 지식 증류
서명 / 저자 Class token knowledge distillation for efficient vision transformer = 효율적인 비전 트랜스포머를 위한 클래스 토큰 지식 증류 / Minchan Kang.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 비공개원문

소장정보

등록번호

8042225

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MEE 24113

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Vision Transformer (ViT) achieves higher performance compared to Convolutional Neural Networks(CNNs) but requires more computational cost. Knowledge Distillation (KD) has demonstrated potential in compressing complex networks by transferring knowledge from a large pre-trained model to a smaller one. However, existing KD methods for ViT either employ CNNs as teachers or overlook the importance of class token ([CLS]) information. It leads to failing to effectively distill ViT’s distinct knowledge. In this paper, we propose Class token Knowledge Distillation ([CLS]-KD), which fully exploits information from the class token and patches in ViT. For class embedding (CLS) distillation, the intermediate CLS of the student model is aligned with the corresponding CLS of the teacher model through a projector. Furthermore, we introduce CLS-patch attention map distillation, where an attention map between the CLS and patch embeddings is generated and matched at each layer. This empowers the student model to learn how to adaptively extract patch embedding information into the CLS under teacher guidance. Through these two strategies, [CLS]-KD consistently outperforms existing state-of-the-art methods on the ImageNet-1K dataset across various teacher-student settings. Moreover, the proposed method shows its generalization ability through transfer learning experiments on the CIFAR-10 and CIFAR-100 datasets.

비전 트랜스포머 (ViT)는 합성곱 신경망 (CNNs)에 비해 높은 성능을 달성하지만 더 많은 계산 비용이 필요합니다. 지식 증류 (KD)는 큰 미리 훈련된 모델에서 작은 모델로 지식을 전달함으로써 복잡한 네트워크를 압축하는 데 잠재력을 보여주었습니다. 그러나 현재의 ViT에 대한 KD 방법은 대부분 CNN을 선생님으로 사용하거나 클래스 토큰 ([CLS]) 정보의 중요성을 간과합니다. 이는 ViT의 독특한 지식을 효과적으로 증류하지 못하게 합니다. 본 논문에서는 클래스 토큰 지식 증류 ([CLS]-KD)를 제안합니다. 이 방법은 ViT의 클래스 토큰과 패치에서 정보를 완전히 활용합니다. 클래스 토큰 (CLS) 증류를 위해 학생 모델의 중간 CLS는 프로젝터를 통해 선생님 모델의 해당 CLS와 일치하도록 정렬됩니다. 더 나아가 CLS-패치 어텐션 맵 증류를 소개하며, CLS와 패치 임베딩 간의 어텐션 맵이 각 레이어에서 생성되고 일치합니다. 이를 통해 학생 모델은 선생님의 지도 아래에서 어떻게 패치 임베딩 정보를 적응적으로 추출할지 학습할 수 있습니다. 이 두 가지 전략을 통해 [CLS]-KD는 다양한 선생님-학생 설정에서 ImageNet-1K 데이터셋에서 기존의 최첨단 방법을 일관되게 능가합니다. 또한 제안된 방법은 CIFAR-10 및 CIFAR-100 데이터셋에서 전이 학습 실험을 통해 일반화 능력을 보입니다.

서지기타정보

서지기타정보
청구기호 {MEE 24113
형태사항 iv, 19 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 강민찬
지도교수의 영문표기 : Dae-Shik Kim
지도교수의 한글표기 : 김대식
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 15-17
주제 Deep learning
Computer vision
Knowledge distillation
Vision transformer
딥러닝
컴퓨터 비젼
지식 증류
비젼 트랜스포머
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서