Meta-learning of shared initialization parameters has shown to be highly effective in solving few-shot learning tasks. However, extending the framework to many-shot scenarios, which may further enhance its practicality, has been relatively overlooked due to the technical difficulties of meta-learning over long chains of inner-gradient steps. In this paper, we first show that allowing the meta-learners to take a larger number of inner gradient steps better captures the structure of heterogeneous and large-scale task distributions, thus results in obtaining better initialization points. Further, in order to increase the frequency of meta-updates even with the excessively long inner-optimization trajectories, we propose to estimate the $\emph{required shift}$ of the task-specific parameters with respect to the change of the initialization parameters. By doing so, we can arbitrarily increase the frequency of meta-updates and thus greatly improve the meta-level convergence as well as the quality of the learned initializations. We validate our method on a heterogeneous set of large-scale tasks and show that the algorithm largely outperforms the previous first-order meta-learning methods in terms of both generalization performance and convergence, as well as multi-task learning and fine-tuning baselines.
모델의 초깃값 변수를 메타 러닝하는 것은 few-shot 문제를 해결하는 데에 효율적임이 알려져 있다. 하지만, 현실적인 many-shot 상황에서는 inner-step이 길어짐에 따른 메타 러닝의 기술적 문제로 인해 확장되지 못했다. 이 논문에서는 먼저 메타 학습 모델이 더 긴 inner-step 동안 학습하는 것이 이기종의 대규모 태스크의 구조를 더 잘 포착하여 더 나은 초깃값 변수를 학습할 수 있음을 보인다. 또한, inner-step이 길어져도 메타 업데이트의 빈도를 증가시킬 수 있도록 초깃값 변수의 변화에 따른 태스크 변수의 필요 변화량을 추정하는 방법을 제안한다. 이를 통해 메타 업데이트의 빈도를 증가 시켜, 메타 레벨에서 더 잘 수렴하고, 학습된 초깃값 변수가 더 좋은 성능을 낼 수 있게 한다. 이기종의 대규모 태스크에서 방법을 검증할 때, 제안한 방법이 기존의 first-order 메타 러닝 기법들과 multi-task 학습 기법, fine-tuning 기법들보다 일반화 성능 및 수렴 면에서 우수한 성능을 보여준다.