서지주요정보
Distillation of chain-of-thought reasoning using large language models = 대형 언어 모델을 활용한 사고 사슬 추론 증류
서명 / 저자 Distillation of chain-of-thought reasoning using large language models = 대형 언어 모델을 활용한 사고 사슬 추론 증류 / Namgyu Ho.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041177

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 23060

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Recent works have shown that chain-of-thought (CoT) prompting can elicit language models to solve complex reasoning tasks, step-by-step. However, prompt-based CoT methods are dependent on very large models such as GPT-3 175B which are prohibitive to deploy at scale. In this paper, we use these large models as reasoning teachers to enable complex reasoning in smaller models and reduce model size requirements by several orders of magnitude. We propose Fine-tune-CoT, a method that generates reasoning samples from very large teacher models to fine-tune smaller models. We evaluate our method on a wide range of public models and complex tasks. We find that Fine-tune-CoT enables substantial reasoning capability in small models, far outperforming prompt-based baselines and even the teacher model in many tasks. Additionally, we extend our method by leveraging the teacher model’s ability to generate multiple distinct rationales for each original sample. Enriching the fine-tuning data with such diverse reasoning results in a substantial performance boost across datasets, even for very small models. We conduct ablations and sample studies to understand the emergence of reasoning capabilities of student models. Our code implementation and data are available at https://github.com/itsnamgyu/reasoning-teacher.

최근 사고 사슬 (Chain of Thought, CoT) 프롬프팅 기법은 대형 언어 모델로 하여금 복잡한 추론 문제 풀이를 가능케 하여 크게 주목받은 바 있다. 하지만 CoT 프롬프팅은 GPT-3 175B와 같이 매우 큰 모델에 의존하고 있어 상용화에 어려움이 있다. 본 논문은 이에 대한 해결책으로써 큰 모델을 일종의 교사로 활용하여 작은 모델에게 추론 능력을 학습시키는 Fine-tune-CoT 기법을 제시한다. 이를 통해 모델 크기를 확연히 줄이면서 효과적인 추론 능력을 달성할 수 있다. 이에 더불어 학습 효율을 증대하기 위한 확장 기법 Diverse Reasoning을 제시한다. 다양한 모델과 문제에 대한 평가를 통해 본 기법의 효용성을 확인할 수 있었고, 일부 경우에는 작은 모델이 교사 모델의 추론 성능을 뛰어넘는 경우도 발견할 수 있었다. 끝으로 다양한 분석 실험과 개별 샘플 탐구를 통해 작은 모델에서 추론 능력의 발현을 다방면으로 설명한다.

서지기타정보

서지기타정보
청구기호 {MAI 23060
형태사항 vi, 44 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 허남규
지도교수의 영문표기 : Se-Young Yun
지도교수의 한글표기 : 윤세영
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 39-42
주제 Large language models
Chain-of-thought reasoning
Knowledge distillation
Natural language processing
대형 언어 모델
사슬 추론
지식 증류
자연어 처리
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서