Deep learning has achieved remarkable performance in several areas, but fine-tuning pre-trained models based on new data can lead to catastrophic forgetting. To address this, we propose a novel image conditional prompt learning approach to continual learning method which is inspired by humans’ working memory system. Our approach eliminates the need for data storage buffers and prompt pools for continual learning. Instead, we just need to train only the lightweight MLP to generate prompts without training the entire model. Leveraging CLIP-based models allows us to align vision and text, facilitating comprehensive multi-modal learning. Also, our approach uses regularization and knowledge distillation to retain knowledge while adapting to new tasks.
딥 러닝은 여러 영역에서 놀라운 성능을 달성했지만 새로운 데이터를 기반으로 사전 훈련된 모델을 미세 조정하면 치명적인 망각으로 이어질 수 있다. 이를 해결하기 위해 우리는 인간의 작업 기억 시스템에서 영감을 얻어 이미지를 조건부로 한 프롬프트 학습 방식의 지속 가능한 학습 방법을 제안한다. 우리의 접근 방식은 지속적인 학습을 위해 데이터 스토리지 버퍼 및 프롬프트 풀이 필요하지 않다. 대신 전체 모델을 교육하지 않고 프롬프트를 생성하기 위한 작은 다층 모델만 교육하면 된다. CLIP 기반 모델을 활용하면 비전과 텍스트를 조정하여 포괄적인 다중 모달 학습을 할 수 있으며, 또한 정규화 및 지식 증류 기법을 사용하여 새로운 작업에 학습하면서 이전 작업의 지식을 유지할 수 있다.