Modern deep neural networks are equipped with normalization layers such as batch normalization or layer normalization to enhance and stabilize training dynamics. If a network contains such normalization layers, the optimization objective is invariant to the scale of the neural network parameters. The scale-invariance induces the neural network's output to be only affected by the weights' direction and not the weights' scale. We address the tuning of hyperparameters and their applications in such scale-invariant neural networks. As a first application, hyperparameter tuning in active learning is dealt with. In active learning, the number of labeled training data continues to increase as learning progresses. We propose a weight decay scheduling method suitable for active learning based on the analysis of the relationship between the number of training data and weight decay. We also propose a method of distilling knowledge from the low-performing network used in the previous round and apply it to active learning. We validate our methods on the MNIST, CIFAR-10, and CIFAR-100 datasets using convolutional neural networks of various sizes. Second, we find a common feature of good hyperparameter combinations on such a scale-invariant network, including learning rate, weight decay, number of data samples, and batch size. Our key observation is that hyperparameter setups that lead to good performance show similar degrees of angular update during one epoch. Using a stochastic differential equation, we analyze the angular update and show how each hyperparameter affects it. With this relationship, we can derive a simple hyperparameter tuning method and apply it to an efficient hyperparameter search.
최근의 깊은 신경망 네트워크는 학습의 안정성과 좋은 성능을 위해서 배치 정규화, 층 정규화, 그룹 정규화와 같은 방법들을 사용한다. 이러한 정규화 층이 있으면 신경망의 최적화 목표는 신경망의 가충치의 크기에 불변하게 된다. 이러한 스케일 불변 특성은 인공 신경망의 출력이 가중치의 크기에는 불변하고 오로지 방향에만 영향을 받도록 한다. 우리는 이러한 스케일 불변 신경망에서 초매개 변수의 조율과 그것의 응용에 대해서 다룬다. 첫 번째로는 능동학습에서의 초매개 변수 조율에 대해서 다룬다. 능동학습에서는 학습이 진행되면서 레이블이 있는 학습 데이터의 개수가 계속 증가한다. 우리는 학습 데이터의 개수와 가중치 감소 초매개변수 사이의 관계에 대한 분석을 바탕으로 능동 학습에 적합한 가중치 감소 스케쥴링 방법을 제안한다. 또한 이전 라운드에 사용되었던 성능이 낮은 네트워크로부터 지식을 증류하는 방법을 제안하고 능동학습에 적용한다. MNIST, CIFAR-10, CIFAR-100 데이터셋에서 다양한 콘볼루션 인공 신경망으로 실험하여 제안하는 방법의 타당성을 보인다. 두 번째로는 효율적인 초매개변수 조율에 대해서 다룬다. 우리는 학습률, 가중치 감소, 학습 데이터의 개수, 배치 크기를 포함하는 초매개변수에 대하여 좋은 성능을 나타내는 조합의 공통적인 특징을 분석한다. 우리의 주요한 관찰은 좋은 성능을 보여주는 초매개변수 조합은 한 에폭동안 인공신경망 가중치의 각도 변화가 매우 유사하다는 것이다. SGD를 근사하는 확률 미분 방정식을 이용하여 이러한 에폭 당 각도 변화를 분석하여 각 초매개변수가 각도 변화와 어떻게 영향이 있는지를 분석하였다. 이러한 관계를 바탕으로 우리는 간단한 초매개변수 튜닝 방법과 효율적인 초매개변수 탐색 방법을 제안한다.