Machine learning models are typically initialized by independent Gaussian weights. However, there are evidences which reveal that the weights of some pre-trained models exhibit heavy-tailed distributions and dependence between themselves. This hints that, in terms of Bayesian inference, our prior belief does not properly describe the true behavior of the network function. To alleviate such limitations, we consider a network model where the weights are initialized with possibly dependent heavy-tailed distributions. We prove that, as the network width tends to infinity, the outputs of such a network converge in distribution to stable processes or, in general, mixtures of Gaussian processes, where the limiting stochastic processes are determined according to the distributions the weights are initialized. We also prove that some weights do not converge to zero as the width tends to infinity, and the corresponding node may represent hidden features. Additionally, we investigate the pruning error under the infinite-width limit. Finally, we analyze the optimization of our network via gradient flow, and prove that the gradient flow converges to the global minimum while learning features, unlike the previous Neural Tangent Kernel (NTK) model.
기존의 여러 기계학습 모델은 정규분포와 노드간 독립성을 가정하는데, 이러한 모델을 학습시키면 그 학습된 노드의 가중치들이 두터운 꼬리 분포와 노드간 의존성을 가짐이 여러 실험적인 결과에서 확인된다. 베이즈 추론의 관점에서, 이것은 사전 확률이 신경망의 행동을 잘 반영하지 못하는 것으로 이해할 수 있다. 이러한 한계점을 해결하고자 본 논문에서는 가중치의 초깃값이 의존성을 가지는 두터운 꼬리분포로 초기화되는 모델을 제시하였다. 이 초기화된 무한너비 신경망이 초깃값 분포에 따라 안정 과정, 혼합 가우스 가정 등을 따름을 보였으며, 일부 노드의 가중치는 0으로 수렴하지 않아 특징(feature)을 학습함을 보였다. 추가적으로, 신경망의 가지치기(pruning) 오차를 무한너비 극한 하에서 분석하였다. 마지막으로, 이러한 모델의 학습을 경사 하강 흐름(gradient flow)을 통해 분석하고, 학습된 신경망이 손실함수를 전역 최솟값으로 수렴시키면서도, 기존의 Neural Tangent Kernel (NTK) 모델과는 다르게 특징을 학습할 수 있음을 보였다.