서지주요정보
Large-scale meta-learning with continual trajectory shifting = 연속적 경로 이동을 통한 대규모 메타러닝
서명 / 저자 Large-scale meta-learning with continual trajectory shifting = 연속적 경로 이동을 통한 대규모 메타러닝 / Jaewoong Shin.
발행사항 [대전 : 한국과학기술원, 2021].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8038215

소장위치/청구기호

학술문화관(문화관) 보존서고

MAI 21005

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Meta-learning of shared initialization parameters has shown to be highly effective in solving few-shot learning tasks. However, extending the framework to many-shot scenarios, which may further enhance its practicality, has been relatively overlooked due to the technical difficulties of meta-learning over long chains of inner-gradient steps. In this paper, we first show that allowing the meta-learners to take a larger number of inner gradient steps better captures the structure of heterogeneous and large-scale task distributions, thus results in obtaining better initialization points. Further, in order to increase the frequency of meta-updates even with the excessively long inner-optimization trajectories, we propose to estimate the $\emph{required shift}$ of the task-specific parameters with respect to the change of the initialization parameters. By doing so, we can arbitrarily increase the frequency of meta-updates and thus greatly improve the meta-level convergence as well as the quality of the learned initializations. We validate our method on a heterogeneous set of large-scale tasks and show that the algorithm largely outperforms the previous first-order meta-learning methods in terms of both generalization performance and convergence, as well as multi-task learning and fine-tuning baselines.

모델의 초깃값 변수를 메타 러닝하는 것은 few-shot 문제를 해결하는 데에 효율적임이 알려져 있다. 하지만, 현실적인 many-shot 상황에서는 inner-step이 길어짐에 따른 메타 러닝의 기술적 문제로 인해 확장되지 못했다. 이 논문에서는 먼저 메타 학습 모델이 더 긴 inner-step 동안 학습하는 것이 이기종의 대규모 태스크의 구조를 더 잘 포착하여 더 나은 초깃값 변수를 학습할 수 있음을 보인다. 또한, inner-step이 길어져도 메타 업데이트의 빈도를 증가시킬 수 있도록 초깃값 변수의 변화에 따른 태스크 변수의 필요 변화량을 추정하는 방법을 제안한다. 이를 통해 메타 업데이트의 빈도를 증가 시켜, 메타 레벨에서 더 잘 수렴하고, 학습된 초깃값 변수가 더 좋은 성능을 낼 수 있게 한다. 이기종의 대규모 태스크에서 방법을 검증할 때, 제안한 방법이 기존의 first-order 메타 러닝 기법들과 multi-task 학습 기법, fine-tuning 기법들보다 일반화 성능 및 수렴 면에서 우수한 성능을 보여준다.

서지기타정보

서지기타정보
청구기호 {MAI 21005
형태사항 iv, 31 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 신재웅
지도교수의 영문표기 : Sung Ju Hwang
지도교수의 한글표기 : 황성주
학위논문 학위논문(석사) - 한국과학기술원 : AI대학원,
서지주기 References : p. 27-29
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서