Recent studies have found that language models (LMs) pretrained on enormous amounts of text corpora can store world knowledge in their internal parameters. Despite its benefits, however, the knowledge stored in LMs can be easily outdated as the world evolves over time. In this study, we introduce a novel framework for lifelong pretraining of LMs, based on the concept of knowledge distillation. Specifically, our framework adjusts how much to distill the knowledge from a teacher’s prediction by considering its reliability. Furthermore, we demonstrate that the student model can effectively serve as its own teacher, generating highly valuable labels for training. Experiments on multiple benchmarks confirm the effectiveness and validity of our framework.
최근 연구에 따르면, 대규모 텍스트 데이터에 사전 학습된 언어 모델이 지식을 내재화할 수 있다는 사실이 밝혀졌다. 하지만 이러한 모델에 저장된 지식은 시간이 지남에 따라 쉽게 구식화될 위험이 있다. 이 연구에서는 언어 모델의 지속적인 학습을 위한 지식 증류 기반 사전 학습을 제안한다. 이 접근법은 교사 모델의 예측에 대한 신뢰도를 기준으로 지식 증류 정도를 조절한다. 또한, 기존의 방법론과 달리 학생 모델이 교사의 역할을 효과적으로 수행하여 유의미한 교육 레이블을 생성할 수 있다는 것을 보여준다.