I address the gap between the regularization and memory based methods for mitigating catastrophic forgetting in the continual learning scenario. Memory based methods, especially experience replay(ER), store the few samples in the replay memory to use it later tasks. Many researches show that memory based approaches can easily achieve the state of the art performance, however, those methods still need to store samples from previous tasks, which violates the common assumption of continual learning problem. Although the regularization based methods can maintain this assumption, those methods still far from the state of the art performance. To mitigate this performance gap without stored samples, I study how to approximate ER methods directly, unlike the purpose of the regularization based methods. I choose the method to approximate previous task gradients by first-order Taylor approximation with the stored gradients and diagonal hessian values at final previous task parameter point. The result in the various data-sets shows that this approximation method can make better or comparable performance with the regularization-based methods, which use fixed neural network size and without stored examples.
본 논문에서는 연속학습 상황에서 망각 현상을 완화하기 위해 활용하는 정규화 기반 방식과 메모리 기반 방법 사이의 격차를 해결하기 위한 연구를 진행하였다. 메모리 기반 방법, 특히 경험 재생 방법 (ER)은 나중에 수행 할 작업을 위해 몇 개의 샘플을 메모리에 저장해 활용하는 방법이다. 기존 연구들에 따르면 메모리 기반 방식이 망각 완화에 크게 도움이 되지만, 이전 태스크의 샘들을 저장해야 하므로, 연속학습의 기본 가정을 위배하는 문제가 있다. 정규화 기반 방법이 이러한 가정을 위배하지 않고 망각현상을 완화할 수 있지만, 메모리 기반 방식에 비해 낮은 성능을 보여준다. 본 연구에서는 저장된 샘플없이 이러한 성능 격차를 완화하기 위해 정규화 기반 방법의 목적과 달리 경험 재생 방법 (ER)을 직접 근사하는 방법을 제안한다. 이전 태스크에 대해 저장된 그라디언트 및 헤시안 값을 사용하여 1 차 테일러 근사로 이전 테스크의 그라디언트를 근사화하는 방법을 이용해 경험 재생 방법(ER)을 근사한다. 다양한 데이터 세트에서의 결과는이 근사 방법이 고정 된 신경망 크기를 사용하고 저장된 샘플없이 기존의 정규화 기반 방법보다 더 우수하거나 유사한 성능을 얻을 수 있음을 보여준다.