서지주요정보
Generalization of deep neural networks via discovering flatter loss surfaces = 편평도가 더 높은 손실 평면을 발견함을 통한 딥뉴럴네트워크의 일반화
서명 / 저자 Generalization of deep neural networks via discovering flatter loss surfaces = 편평도가 더 높은 손실 평면을 발견함을 통한 딥뉴럴네트워크의 일반화 / Sihyeon Seong.
저자명 Seong, Sihyeon ; 성시현
발행사항 [대전 : 한국과학기술원, 2019].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8033268

소장위치/청구기호

학술문화관(도서관)2층 패컬티라운지(학위논문)

DEE 19030

SMS전송 소장위치

도서상태

이용가능

대출가능

반납예정일

초록정보

Achieving generalization is one of a core problem in DNNs(Deep Neural Networks). DNNs have extremely large number of parameters, resulting in high model complexity. Therefore, any well-conditioned training problem can be fit with DNNs, but high model complexity makes solution of DNNs underdetermined, meaning DNNs has too many solutions for the target training problem. To reduce the solution space of this underdetermined system, numerous regularization concepts have been proposed. In this work, the flat minima theory is adopted as a constraint of optimization problem. The first concept of flat minima is described in [19, 18]. In this paper, we give more concrete theoretical explanations on why flat minima works better. A classic viewpoint of generalization is described in output robustness with respect to input perturbations. We analyze the flatness of loss surfaces through the lens of robustness to input perturbations and advocate that gradient descent should be guided to reach flatter region of loss surfaces to achieve generalization. By doing so, we show the relation of learning rate and generalization. Furthermore, we developed a method which can discover flatter minima to improve the optimization of DNNs. Whereas optimizing deep neural networks using stochastic gradient descent has shown great performances in practice, the rule for setting step size (i.e. learning rate) of gradient descent is not well studied. Although it appears that some intriguing learning rate rules such as ADAM [26] have since been developed, they concentrated on improving convergence, not on improving generalization capabilities. Recently, the improved generalization property of the flat minima was revisited, and this research guides us towards promising solutions to many current optimization problems. We suggest a learning rate rule for escaping sharp regions of loss surfaces and propose a concept of learning rate scheduling called peak learning stage. Based on peak learning stage, we propose an adaptive-perparameter version of learning rate scehduling called Adapeak. Finally, we demonstrate the capacity of our approach by performing numerous experiments. To experimentally verify our theories, we performed many perturbation analysis on both input space and weight space. DNNs are extensively high-dimensional model, so it is hard to observe the flatness of its weight space. Therefore, we evaluate the subspace of high-dimensional loss surfaces and propose some effective methods for selecting subspaces of high-dimensional loss surfaces to estimate the generalization capability of the DNN model.

딥 뉴럴 네트워크(Deep Neural Network)에서 학습하지 않은 데이터에도 대응할 수 있는 능력인 일반화(generalization)를 달성하는 것은 핵심적인 문제이다. 딥 뉴럴 네트워크는 매우 많은 수의 가중치 파라미터(parameter)를 가지고 있으므로, 이에 따라 높은 모델 복잡도(model complexity)를 가지게 된다. 그러므로,딥 뉴럴 네트워크는 잘 정의된 학습 문제에 대해서는 높은 적합 능력으로 풀 수 있으나, 높은 모델 복잡도는딥 뉴럴 네트워크의 학습 문제에 대한 해답이 유일하게 결정되지 않도록 하여, 풀고자 하는 문제에 대해 여러개의 해답이 가능하도록 만든다. 이러한 결정되지 않은 해답 공간을 줄이기 위하여, 많은 규제화(regular-ization) 기법들이 제안되었다. 본 연구에서는 평평한 최저점 이론을 도입하여 최적화 문제의 제한 사항으로삼는다. 평평한 최저점은 개념적으로 [19, 18] 에서 처음 도입된 바 있다. 본 논문에서는 왜 평평한 죄저점이더 좋은 지를 더 구체적인 이론으로 설명한다. 고전적인 관점에서의 일반화는 입력 변화에 대한 출력의강인함으로 설명된다. 우리는 손실 평면(loss surface)의 평탄함을 입력의 변화에 대한 강인함의 측면에서분석하고, 일반화를 이루기 위해서는 기울기 하강법(gradient descent)이 손실 평면에서 더 평탄한 지역으로최적화를 이끌어야 한다는 것을 설파하였다. 또한, 우리는 딥 뉴럴 네트워크의 최적화가 더 평평한 최저점을 찾을 수 있도록 하는 기법을 제안하였다. 확률적인 기울기 하강법(stochastic gradient descent)을 이용한 딥 뉴럴 네트워크의 최적화는 실제환경에서 좋은 성능을 보이고 있지만, 이 기법에서의 변경 크기(학습률)에 대해서는 잘 연구가 되어있지않다. ADAM[26], AMSgrad[38]와 같은 학습률에 대한 흥미로운 연구들이 제안된 바 있지만, 해당 연구들은수렴성을 향상시키기 위한 목적으로 연구되었으며, 일반화 능력을 향상시키지 못한다. 최근 평평한 최저점의향상된 일반화 특성이 재조명 되고 있으며, 해당 연구는 다양한 최적화 문제들의 유망한 해결 방법들을 향해이끌고 있다. 우리는 뾰족한 최저점에서 탈출할 수 있는 학습률 법칙을 제안하고, 정점 학습 단계라는 학습률관리 기법 개념을 제시한다. 정점 학습 단계에 기반하여, 우리는 Adapeak라고 불리는 적응적-개별파라미터방식의 학습률 관리 기법을 제안한다. 최종적으로, 우리 기법의 능력을 다양한 실험을 통해 증명한다. 우리의 이론을 실험적으로 검증하기위해, 입력 공간과 가중치 공간에서 다양한 변화 분석(perturbation analysis)을 수행한다. 딥 뉴럴 네트워크는 매우 고차원 모델이므로, 가중치 공간에서 평탄도를 측정하기가 어렵다. 그러므로, 우리는 고차원 손실평면의 부분 공간을 측정하고, 딥 뉴럴 네트워크 모델의 일반화 능력을 평가할 수 있는 고차원 손실 평면의효과적인 부분 공간들을 선택하는 방법을 제시한다.

서지기타정보

서지기타정보
청구기호 {DEE 19030
형태사항 v, 60 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 성시현
지도교수의 영문표기 : Kim, Junmo
지도교수의 한글표기 : 김준모
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 55-58
주제 Deep learning
learning rate
generalization
loss Surfaces
딥러닝
학습률
일반화
손실 평면
QR CODE qr code