서지주요정보
On the hyperparameter tuning of a scale-invariant network and its applications = 스케일 불변 네트워크의 초매개변수 조율과 그 응용
서명 / 저자 On the hyperparameter tuning of a scale-invariant network and its applications = 스케일 불변 네트워크의 초매개변수 조율과 그 응용 / Juseung Yun.
발행사항 [대전 : 한국과학기술원, 2023].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8040296

소장위치/청구기호

학술문화관(도서관)2층 학위논문

DEE 23025

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

Modern deep neural networks are equipped with normalization layers such as batch normalization or layer normalization to enhance and stabilize training dynamics. If a network contains such normalization layers, the optimization objective is invariant to the scale of the neural network parameters. The scale-invariance induces the neural network's output to be only affected by the weights' direction and not the weights' scale. We address the tuning of hyperparameters and their applications in such scale-invariant neural networks. As a first application, hyperparameter tuning in active learning is dealt with. In active learning, the number of labeled training data continues to increase as learning progresses. We propose a weight decay scheduling method suitable for active learning based on the analysis of the relationship between the number of training data and weight decay. We also propose a method of distilling knowledge from the low-performing network used in the previous round and apply it to active learning. We validate our methods on the MNIST, CIFAR-10, and CIFAR-100 datasets using convolutional neural networks of various sizes. Second, we find a common feature of good hyperparameter combinations on such a scale-invariant network, including learning rate, weight decay, number of data samples, and batch size. Our key observation is that hyperparameter setups that lead to good performance show similar degrees of angular update during one epoch. Using a stochastic differential equation, we analyze the angular update and show how each hyperparameter affects it. With this relationship, we can derive a simple hyperparameter tuning method and apply it to an efficient hyperparameter search.

최근의 깊은 신경망 네트워크는 학습의 안정성과 좋은 성능을 위해서 배치 정규화, 층 정규화, 그룹 정규화와 같은 방법들을 사용한다. 이러한 정규화 층이 있으면 신경망의 최적화 목표는 신경망의 가충치의 크기에 불변하게 된다. 이러한 스케일 불변 특성은 인공 신경망의 출력이 가중치의 크기에는 불변하고 오로지 방향에만 영향을 받도록 한다. 우리는 이러한 스케일 불변 신경망에서 초매개 변수의 조율과 그것의 응용에 대해서 다룬다. 첫 번째로는 능동학습에서의 초매개 변수 조율에 대해서 다룬다. 능동학습에서는 학습이 진행되면서 레이블이 있는 학습 데이터의 개수가 계속 증가한다. 우리는 학습 데이터의 개수와 가중치 감소 초매개변수 사이의 관계에 대한 분석을 바탕으로 능동 학습에 적합한 가중치 감소 스케쥴링 방법을 제안한다. 또한 이전 라운드에 사용되었던 성능이 낮은 네트워크로부터 지식을 증류하는 방법을 제안하고 능동학습에 적용한다. MNIST, CIFAR-10, CIFAR-100 데이터셋에서 다양한 콘볼루션 인공 신경망으로 실험하여 제안하는 방법의 타당성을 보인다. 두 번째로는 효율적인 초매개변수 조율에 대해서 다룬다. 우리는 학습률, 가중치 감소, 학습 데이터의 개수, 배치 크기를 포함하는 초매개변수에 대하여 좋은 성능을 나타내는 조합의 공통적인 특징을 분석한다. 우리의 주요한 관찰은 좋은 성능을 보여주는 초매개변수 조합은 한 에폭동안 인공신경망 가중치의 각도 변화가 매우 유사하다는 것이다. SGD를 근사하는 확률 미분 방정식을 이용하여 이러한 에폭 당 각도 변화를 분석하여 각 초매개변수가 각도 변화와 어떻게 영향이 있는지를 분석하였다. 이러한 관계를 바탕으로 우리는 간단한 초매개변수 튜닝 방법과 효율적인 초매개변수 탐색 방법을 제안한다.

서지기타정보

서지기타정보
청구기호 {DEE 23025
형태사항 iv, 41 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 윤주승
지도교수의 영문표기 : Junmo Kim
지도교수의 한글표기 : 김준모
수록잡지명 : "Weight Decay Scheduling and Knowledge Distillation for Active Learning". Computer Vision – ECCV 2020. ECCV 2020. Lecture Notes in Computer Science(), vol 12371, pp.431-447(2020)
수록잡지명 : "On the Angular Update and Hyperparameter Tuning of a Scale-Invariant Network". Computer Vision – ECCV 2022. ECCV 2022. Lecture Notes in Computer Science, vol 13672, pp.121–136(2022)
Including appendix
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 References : p. 34-38
주제 Active learning
Weight decay
Knowledge distillation
Scale-invariant network
Normalization
Angular update
Hyperparameter tuning
능동 학습
가중치 감소
지식 증류
스케일 불변 네트워크
정규화
각도 업데이트
초매개변수 조율
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서