서지주요정보
On the knowledge acquisition in language model pre-training = 언어모델 사전학습에서의 지식 습득에 대한 연구
서명 / 저자 On the knowledge acquisition in language model pre-training = 언어모델 사전학습에서의 지식 습득에 대한 연구 / Hoyeon Chang.
발행사항 [대전 : 한국과학기술원, 2024].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8041925

소장위치/청구기호

학술문화관(도서관)2층 학위논문

MAI 24036

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

The recent discovery that language models can store substantial factual knowledge within their parameters during pre-training has led to extensive research into understanding the factual knowledge acquired by pre-trained language models. However, relatively little research has been conducted on the specific mechanisms of how and why language models acquire factual knowledge during pre-training, despite its importance. This study addresses this gap by examining how these models acquire factual knowledge during pre-training. Through a series of targeted analytical experiments, I evaluated language models at individual factual knowledge points and monitored their progress throughout training. The findings reveal microscopic dynamics of acquisition and forgetting during training, akin to a 'tug-of-war', occurring within these models. Notably, the ability of these models to acquire and maintain factual knowledge does not show improvement throughout the progress of pre-training. This research contributes to a deeper understanding of the acquisition of factual knowledge in language models, paving the way for future advancements in their design and application.

최근 언어 모델이 사전학습을 통해 변수 내에 많은 양의 사실적 지식을 저장할 수 있다는 사실이 알려지면서, 사전학습된 언어 모델이 습득한 사실적 지식을 이해하는 연구가 많이 이루어져 왔다. 그러나, 언어 모델이 사전학습 과정에서 사실적인 지식이 습득되거나 상실되는 구체적인 기전에 대해서는 그 중요성에 비해 상대적으로 연구가 거의 이루어지지 않았다. 이에, 본 연구에서는 언어 모델이 사전학습 과정에서 구체적으로 어떻게 사실적 지식을 습득하는지 확인하고자, 개별 지식에 대하여 각 학습 단계마다 언어 모델을 평가해가며 다양한 분석 실험을 진행하였다. 이를 통해, 대부분의 언어 모델이 미시적인 관점에서 바라보았을 때 실제로는 사전학습 과정에서 지식의 습득 및 일반화를 할 수 있으나, 연속적인 학습이 이루어지는 과정에서 망각이 일어나는 `줄다리기'와 같은 현상이 되풀이됨을 발견하였다. 특히, 이처럼 언어 모델이 사실적 지식을 습득하고 유지할 수 있는 능력 자체는 사전학습 이 지속됨에 따라 개선되지 않음을 확인하였다. 본 연구를 토대로 향후 언어모델에서 어떤 기전으로 사실적 지식이 형성되는가에 대한 이해를 높여 더욱 개선된 언어모델의 설계와 응용이 이루어질 수 있을 것으로 기대한다.

서지기타정보

서지기타정보
청구기호 {MAI 24036
형태사항 iv, 27 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 장호연
지도교수의 한글표기 : 서민준
Including appendix
학위논문 학위논문(석사) - 한국과학기술원 : 김재철AI대학원,
서지주기 References : p. 23-26
주제 Natural language processing
Language model
Pre-training
Factual knowledge acquisition
자연어처리
언어 모델
사전학습
사실적 지식의 습득
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서