서지주요정보
Design and analysis of optimization problems in deep learning = 심층 학습의 최적화 문제에 대한 설계 및 분석
서명 / 저자 Design and analysis of optimization problems in deep learning = 심층 학습의 최적화 문제에 대한 설계 및 분석 / Cheolhyoung Lee.
발행사항 [대전 : 한국과학기술원, 2020].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8036342

소장위치/청구기호

학술문화관(문화관) 보존서고

DMAS 20012

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

It has been recently observed that probabilistic ideas could be useful in deep learning. For instance, stochastic gradient descent (SGD) enables a deep neural network to learn a task efficiently, and dropout prevents co-adaptation of neurons through random subnetworks. Despite their wide adoption, our understanding of their role in high dimensional parameter spaces is limited. In this dissertation, we analyze SGD from a geometrical perspective by inspecting the stochasticity of the norms and directions of minibatch gradients. We claim that the directional uniformity of minibatch gradients increases over the course of SGD. Furthermore, we formulate that dropout regularizes learning to minimize the deviation from the origin and that the strength of regularization adapts along the optimization trajectory. Inspired by this theoretical analysis of dropout, we propose a new regularization technique "mixout" useful in transfer learning. Mixout greatly improves both finetuning stability and average performance of pretrained large-scale language models. In the case of training from scratch, we introduce a variant of mixout preventing generator forgetting to avoid mode collapse in GANs.

확률적 방법론은 심층 학습에서 유용하게 사용되고 있다. 예를 들어 확률적 경사하강법은 심층 신경망이 학습 데이터를 효율적으로 배울 수 있게 해주며, 드롭아웃은 신경망의 과적합을 방지함으로써 성능을 끌어올린다. 하지만 심층 신경망의 고차원 모수 공간에서 확률적 경사하강법과 드롭아웃이 가지는 역할을 이론적으로 분석한 연구는 아직까지 부족하다. 본 연구자는 미니배치 확률적 경사하강법을 미니배치 경사의 노름과 방향을 이용하여 기하학적으로 분석하고, 확률적 경사하강법이 미니배치 경사의 방향을 균일하게 퍼뜨린다는 것을 보인다. 그뿐만 아니라 드롭아웃이 모수가 원점에서 멀어지지 않게 하는 정규화 효과를 주며, 정규화 강도가 최적화 경로에 따라 변한다는 것을 보인다. 이 결과를 바탕으로 전이 학습에서 유용한 새로운 정규화 방식 "믹스아웃"을 제안한다. 믹스아웃은 사전 훈련된 대규모 언어 모형의 미세조정 안정성과 평균 성능을 크게 향상시킨다. 또한 믹스아웃을 처음부터 학습하는 경우에 맞게 수정함으로써 생산적 적대 신경망의 학습에서 일어나는 모드 붕괴 현상을 방지할 수 있다.

서지기타정보

서지기타정보
청구기호 {DMAS 20012
형태사항 xii, 80 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 이철형
지도교수의 영문표기 : Wanmo Kang
지도교수의 한글표기 : 강완모
수록잡지명 : "Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models". Eighth International Conference on Learning Representations (ICLR 2020),
수록잡지명 : "Directional Analysis of Stochastic Gradient Descent via von Mises-Fisher Distributions in Deep learning". “Integration of Deep Learning Theories” Workshop, 32nd Conference on Neural Information Processing Systems (NeurIPS 2018 Workshop),
학위논문 학위논문(박사) - 한국과학기술원 : 수리과학과,
서지주기 References : p. 75-80
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서