Recent works have revealed that infinitely-wide feed-forward or recurrent neural networks of any architecture correspond to Gaussian processes referred to as Neural Network Gaussian Processes (NNGPs). While these works have extended the class of neural networks converging to Gaussian processes significantly, however, there has been little focus on broadening the class of stochastic processes that such neural networks converge to. In this work, inspired by the scale mixture of Gaussian random variables, we propose the scale mixture of NNGPs for which we introduce a prior distribution on the scale of the last-layer parameters. We show that simply introducing a scale prior on the last-layer parameters can turn infinitely-wide neural networks of any architecture into a richer class of stochastic processes. With certain scale priors, we obtain heavy-tailed stochastic processes, and in the case of inverse gamma priors, we recover Student’s t processes. We further analyze the distributions of the neural networks initialized with our prior setting and trained with gradient descents and obtain similar results as for NNGPs. We present a practical posterior-inference algorithm for the scale mixture of NNGPs and empirically demonstrate its usefulness on regression and classification tasks. In particular, we show that in both tasks, the heavy-tailed stochastic processes obtained from our framework are robust to out-of-distribution data.
최근 연구들은 임의의 구조를 가진 너비가 무한한 순전파 신경망 또는 순환 신경망과 인공 신경망 가우시안 확률과정 (NNGPs) 이라고 불리는 확률과정이 서로 일치한다는 것을 보였다. 이 연구들은 다양한 종류의 인공 신경망들이 가우시안 확률과정으로 수렴한다는 것을 보였지만 이러한 인공 신경망들이 수렴하는 확률과정의 종류를 넓히는 연구는 비교적 적은 관심을 받아 왔다. 이 논문에서는 가우시안 확률 변수의 규모 혼합 모델에서 영감을 얻어 인공 신경망의 마지막 층의 변수들의 규모에 사전 분포를 정의하는 방식으로 인공 신경망 확률과정의 규모 혼합 모델을 제안한다. 우리는 간단하게 인공 신경망의 마지막 층의 변수들의 규모에 사전 분포를 정의하는 방식을 통해 임의의 구조를 가진 너비가 무한한 신경망이 좀 더 풍부한 종류의 확률과정으로 수렴한다는 것을 보였다. 우리는 특정한 규모 사전 분포를 통해 두터운 꼬리 확률과정을 얻을 수 있음을 보였고, 특히 역감마 사전 분포를 통해 우리는 스튜던트 t 확률과정을 만들 수 있음을 보였다. 더 나아가 우리는 우리의 방식으로 초기화된 인공 신경망이 경사 하강법을 통해 학습되면 인공 신경망 가우시안 확률과정과 비슷한 결과를 얻을 수 있을 보였다. 우리는 인공 신경망 가우시안 확률과정의 규모 혼합 모델의 실용적인 사후 추론 알고리즘을 제안하고 우리의 모델이 회귀와 분류 문제에서 유용함을 실험적으로 증명하였다. 특히, 우리 모델에서 얻어진 두터운 꼬리 확률과정이 두 가지 문제에서 모두 분포 외 데이터 (Out-of-distribution data)에 대해 좋은 성능을 보였다.