Large Language Models (LLMs) store knowledge learned from vast amounts of text data. With the recent trend toward models possessing more parameters and being trained on larger datasets, the likelihood of LLMs unintentionally learning personal information has increased. In response, various studies propose methodologies to prevent LLMs from generating outputs that include personal information. Despite these recent efforts, there is a growing need for approaches to directly delete pre-learned information within the model, as attack techniques aligned with privacy defense strategies continue to advance. Most prior research on information deletion involves fine-tuning, where specific facts are repeatedly trained as irrelevant information to prevent the model from producing outputs containing personal information. However, this approach is challenging to adapt to user requests for personal data deletion and consumes substantial computing resources. This study presents an effective method for deleting personal information within large language models. First, an analysis is conducted on how well personal information within LLMs activates the transformer neural network for output generation. Additionally, the impact of the number of training iterations on the activation level of the transformer network is examined, exploring the potential for more precise updates to the parameters of large language models. Finally, the study confirms the effectiveness of using low-frequency fine-tuning for information deletion compared to traditional fine-tuning approaches. The proposed methodology can be actively applied in services that require agile responses to numerous requests for small-scale personal data deletion, even in scenarios with limited computing resources. All code and data related to the methods and experiments in this white paper will be made publicly available.
대규모 언어 모델(LLM)은 방대한 양의 텍스트를 통해 학습한 지식을 저장하고 있습니다. 최근 트렌드에 맞춰, 더 많은 수의 파라미터를 보유하고 더 많은 양의 데이터로 학습된 대규모 언어 모델이 연구되고 있는만큼, 대규모 언어 모델이 의도하지 않은 개인정보를 학습할 가능성도 높아지고 있습니다. 이에 따라 많은 연구들이 대규모 언어 모델이 생성해내는 개인 정보를 포함한 출력을 내보내지 못하도록 하는 방법론을 제시합니다. 이러한 최근의 노력에도 불구하고, 개인정보 방어 전략에 맞춘 공격 기법도 발전을 하고 있어 모델 내부에 사전 학습된 정보를 직접 삭제하는 방안이 필요합니다. 대부분의 선행 연구에서 제시한 개인정보의 삭제는 파인튜닝(Fine-Tuing)을 기반으로 하여 특정 사실을 관계 없는 정보로 수차례 학습시켜 개인정보를 포함한 출력을 할 수 없도록 하기 때문에, 사용자 개인의 개인 정보 삭제 요청에 대응하기 어렵고 많은 컴퓨팅 자원을 사용하게 합니다. 이 연구에서는 대규모 언어 모델 내에 존재하는 개인정보를 효과적으로 삭제하는 방법을 제공합니다. 먼저, 대규모 언어 모델 내부의 개인정보가 출력을 위한 트랜스포퍼 신경망의 활성화를 얼마나 잘 야기하는지를 분석합니다. 또한, 학습된 횟수가 트랜스포머 신경망의 활성화도에 주는 영향도를 분석하며, 학습 횟수에 따른 활성화도의 차이를 반영해, 대규모 언어 모델 파라미터의 업데이트를 더욱 정확히 할 수 있는지 가능성을 제시합니다. 마지막으로 낮은 횟수의 파인튜닝을 활용한 사실 정보 삭제를 통한 방법이 기존의 파인튜닝을 기반으로 한 방법과 비교하여 효과적인 성능을 보여줌을 확인합니다. 이 연구가 제시하는 방법론은 다수의 소규모 개인정보 삭제 요청에 민첩하게 대응하여야 하는 서비스에서 적극적으로 활용될 수 있으며, 비교적 컴퓨팅 자원의 한계가 있는 상황에서도 유용하게 적용될 수 있습니다. 이 백서의 모든 방법과 실험에 대한 코드 및 데이터는 공개될 예정이며, 공개적으로 사용 가능합니다.