Regularization and transfer learning are two popular techniques to enhance model generalization on unseen data, which is a fundamental problem of machine learning. Regularization techniques are versatile, as they are task- and architecture-agnostic, but they do not exploit a large amount of data available. Transfer learning methods learn to transfer knowledge from one domain to another, but may not generalize across tasks and architectures, and may introduce new training cost for adapting to the target task. To bridge the gap between the two, we propose a transferable perturbation, MetaPerturb, which is meta-learned to improve generalization performance on unseen data. MetaPerturb is implemented as a set-based lightweight network that is agnostic to the size and the order of the input, which is shared across the layers. Then, we propose a meta-learning framework, to jointly train the perturbation function over heterogeneous tasks in parallel. As MetaPerturb is a set-function trained over diverse distributions across layers and tasks, it can generalize to heterogeneous tasks and architectures. We validate the efficacy and generality of MetaPerturb trained on a specific source domain and architecture, by applying it to the training of diverse neural architectures on heterogeneous target datasets against various regularizers and fine-tuning. The results show that the networks trained with MetaPerturb significantly outperform the baselines on most of the tasks and architectures, with a negligible increase in the parameter size and no hyperparameters to tune.
정규화 기법과 트랜스퍼러닝은 머신러닝에서 모델의 일반화 성능을 높이기 위해 주로 사용되는 방법들 이다. 정규화 기법은 도메인과 네트워크 구조에 상관없이 사용될 수 있어 다재다능 하지만, 사용 가능한 많은 양의 데이터를 활용하지 못한다. 트랜스퍼러닝은 한 도메인에서 다른 도메인으로 지식을 전달하지만, 도메인과 네트워크 구조에 따라 일반화되어 사용되지 못합니다. 이러한 두 방법의 장점을 모두 활용하기 위해, 본 연구에서는 전이가능한 정규화 기법인 메타-펄터브를 제안하였다. 메타-펄터브는 셋 기반의 매우 가벼운 네트워크로 구성되어 있으며, 입력의 순서와 크기에 구애받지 않으며 네트워크 각 계층에 공유되어 사용된다. 또한 이를 효울[율]적으로 학습하기 위해 노이즈 함수를 여러 다른 종류의 태스크들 간에 병렬적으로 학습을 하는 새로운 메타러닝 프레임워크를 제안하였다. 다양한 네트워크 구조와 데이터를 활용한 실험을 통해 메타-펄터브가 파인튜닝과 다양한 정규화 기법들에 비해 더 뛰어난 일반화 성능을 보임을 실험적으로 입증하였다.